Advanced Search
  首页 > 行业动态
谷歌发布用于问答系统的自然问题语料库NQ

  近日, 谷歌宣布发布一个新的大规模训练和评估开放领域问答系统的语料库 Natural Questions (NQ), 旨在推动人们开发出更有效、更强大的问答系统。而在此前, 一直没有大量公开的可用于训练和评估问答模型的自然生成问题(如人们寻求信息时提出的问题)及答案。

  NQ 是一个新的大规模训练和评估开放领域问题回答系统的语料库, 它第一个复制了人们找到问题答案的端到端流程。该语料库很大, 由30 万个自然发生的问题以及维基百科页面上的人工注释答案组成, 可以用于训练问答系统, 此外, 还包括16 000 个由5 个不同的注释员标注了答案(对同一个问题)的例子, 这有助于评估经过训练的问答系统的效果。

  为了创建 NQ, 研究人员从用户向谷歌搜索引擎提出的真实、匿名、聚合的查询开始。然后, 要求注释员通过阅读整个维基百科页面来找到答案, 就像问题是他们自己提出来的一样。注释员寻找包含推断答案所需的所有信息的长答案, 以及简洁地用一个或多个词语回答问题的短答案。NQ 语料库中注释的准确度高达 90%。

  (编译自: https://ai.googleblog.com/2019/01/natural-questions-new-corpus-and.html)

发布时间: 2019-03-04   浏览: 929
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn