炼数成金 门户 商业智能 深度学习 查看内容

深度学习公司Maluuba发布世界上最大人造问答集推动人工智能研究

2017-1-4 21:36| 发布者: 炼数成金_小数| 查看: 20925| 评论: 0|来自: AI100
摘要: MALUUBA是一家深度学习公司,位于加拿大魁北克省蒙特利尔市,致力于从事促进机器人像人类一样思考、推理和交流的事业。该公司今天宣布即将公开发行两个复杂的自然语言理解数据集。在资源的可利用化过程中,MALUUBA公 ...
工具 计算机 深度学习 数学 人工智能 自然语言
MALUUBA是一家深度学习公司,位于加拿大魁北克省蒙特利尔市,致力于从事促进机器人像人类一样思考、推理和交流的事业。该公司今天宣布即将公开发行两个复杂的自然语言理解数据集。在资源的可利用化过程中,MALUUBA公司旨在进一步推动和促进人工智能领域的研究,以取得突破性创新成果。

Maluuba公司的新数据集是自然产生的,而不是人工生成的,它探索了人类在读写和对话方面的基本能力。这些数据集具有一定的复杂性,目前已经应用于开发机器的阅读理解能力、面向目标的对话系统和对话接口领域的研究。

“我们相信,语言的理解能力是人工智能最基本的能力。” Maluuba公司的合伙人兼首席技术官卡希尔·苏勒曼(KaheerSuleman)表示,“我们由衷地希望,Maluuba公司的数据集能够推动人工智能和自然语言领域的发展,希望全世界能一起实现我们的目标——机器与人类直接交流。”

Maluuba公司研发的第一个数据集是NewsQA,主要用于训练可以回答复杂问题的算法,它需要具备人类级别的理解能力和推理技巧。利用来自DeepMind问答数据集中的CNN文章,Maluuba公司准备了一个基于众包的机器阅读语料库,包含120000个问答对。集合方法论的基础是不完全信息和好奇心理。这些问题需要通过推理才能总结出答案,比如综合法、推理法和模糊处理法,这与那些只专注于量而处理简单问题的数据集不同。最终,只有稳定的数据集才能进一步推动自然语言研究的进步。

蒙特利尔大学计算机科学和运筹学学院(DIRO)的助理教授亚伦·考维尔(AaronCourville)博士表示:“开发此数据集的过程中,我们付出很多努力,这些努力将推动机器阅读理解的发展。”

Maluuba公司的第二个数据集是Frames,它包含19986个问答对,可以用来训练自然会话过程中的深度学习算法。以上众多基于文本的对话记录,来源于两个人之间的模拟对话,这两个人一个是度假咨询者,另一个是旅行社代理。其中,从一个话题过度到另一个话题的过程轻松而流畅,比如航班、日期、住宿以及其它等问题能在对话中自然出现。对于其它的对话数据集,我们一般假设该对话没有记忆性,只考虑并记录每步对话中一组用户的约束条件。与第一个数据集NewsQA不同,Frames数据集需要开发全新的状态跟踪模型。

“这个新的数据集非常重要,它让标准对话任务所涉及的领域得到了扩展,例如,比较和探索不同用户的选择。”赫瑞-瓦特大学数学与计算机科学学院(MACS)的教授奥利弗·莱蒙(Oliver Lemon)博士表示,“搭建支持这些任务的会话系统是一个极具吸引力的挑战过程,Frames数据集将会帮助实现这一过程。”

“对于人工智能研究员来说,诸如Maluuba公司开发的Frames数据集等相关内容,将会在面向目标的对话研究中发挥至关重要的作用。”赫瑞-瓦特大学数学与计算机科学学院(MACS)的副教授韦雷娜·里斯(Verena Rieser)博士表示,“在MACS交互实验室,我们正在开展口语对话和响应生成方面的学术研究,而Frames数据集将对我们的研究十分有帮助。”

研究社群可以访问 https://datasets.maluuba.com 来获取Maluuba公司的数据集。

关于Maluuba公司
Maluuba 公司是一个全球性的自然语言理解公司,成立于2011年。该公司的目标是创造出智能的机器,与人类携手共进,一同推动人类智慧的发展。2016年,Maluuba公司在蒙特利尔开设了一个研究实验室, 致力于解决创新产品在语言理解方面面临的基本问题,这将进一步推动人工智能系统的发展。

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

  GMT+8, 2017-11-24 17:06 , Processed in 0.163815 second(s), 25 queries .