Advanced Search
  首页 > 行业动态
谷歌发布含7种语言的全新数据集PAWS和PAWS-X

  近日, 谷歌发布了包含7 种语言释义对的全新数据集PAWS 与PAWS-X。BERT 通过该数据集的训练, 在释义对问题上的精度实现了约3 倍的提升, 其他先进的模型也能够利用该数据集将精度提高到85%-90%。

  识别一对句子是否为释义对的任务则被称为释义识别, 这一任务对于许多实际应用中的自然语言理解而言是非常重要的, 例如: 常见的问答任务等。但是, 目前即使是最先进的模型(如BERT), 如果仅在现有的自然语言理解数据集上进行训练,并不能正确地识别大部分非释义对之间的差异。其中很大的原因是由于在现有自然语言理解数据集中, 缺少诸如此类的训练数据。因此, 即使现有的机器学习模型能够很好地理解复杂的上下文短语, 依旧很难拥有对该类任务的判断能力。

  为了解决这一问题, 谷歌发布了两个新的数据集, 致力于帮助社区进行相关的研究。数据集包括支持英语的释义识别对抗性数据集PAWS(Paraphrase Adversaries from Word Scrambling)和支持多语言的释义识别对抗性数据集PAWS-X。其中,PAWS-X 数据集是在 PAWS 数据集基础上, 扩展了包含另外6 种不同类型语言的释义识别对抗性数据集, 支持语言包括: 法语、西班牙语、德语、汉语、日语和韩语。

  这两个数据集都包含了格式良好、具有高度重叠词汇的句子对。其中大约有一半的句子对是释义对, 此外, 数据集也包含了最先进模型的训练数据。其中, PAWS 数据集共计包含108 463 组由人工标记的句子对。PAWS-X 数据集则包含23 659组由人工判断而得的PAWS 扩展句子对, 以及296 406 组由机器翻译的训练对。

  数据集下载地址: https://github.com/google-research-datasets/paws。

  (编译自: https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html)

(本刊讯)

发布时间: 2019-11-25   浏览: 2034
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn