Advanced Search
 
公 告
作者指南
行业动态
  首页 > 行业动态
谷歌人工智能DeepMind唇读电视节目赛过唇读专家

人工智能(AI)正在入侵唇读领域。GoogleDeepMind和牛津大学的一个合作项目将深度学习应用到BBC的一个庞大的数据集中, 以创建一个唇部阅读系统。唇读是人类一项独特的技艺, 也是非常困难的一件事, 它对于语言语境和知识理解的要求并不亚于视觉上的线索, 然而 AI 又做到了。

AI系统从6个不同的电视节目, 包括Newsnight, BBC BreakfastQuestion Time的约5 000小时的节目中进行训练。这些视频总共包含118 000个句子。牛津大学和DeepMind研究人员先是在20101月至201512月期间播出的节目上对AI系统进行了训练。然后, 20163月至9月间播出的节目中进行测试。

通过观察节目中说话者的唇形, 系统能准确地解读出文字, 例如: “我们知道这里还有数百名记者会出席(We know there will be hundreds of journalists here as well)”根据国家统计局的最新数据(According to the latest figures from the Office of National Statistics)”

在测试集中随机选取的 200 个说话场景唇读对比测试中, 人类专家的准确率为12.4%, AI的准确率为46.8%。而且 AI 所犯错误中有很多其实无关紧要, 比如在复数后面漏掉一个“s”之类。

不久前, 牛津大学曾开发了一个名为LipNet的类似的深度学习系统, 它在GRID唇读数据集上以93.4%52.3%的大比分远超人类唇读专家。但是, GRID的词汇表只包含51个独特的词汇, BBC数据集则包含近17 500个独特词汇, 这无疑是一个更大的挑战。此外, BBC数据集中的语法来自多种多样的真实人类语言, GRID33 000个句子中的语法遵循相同的模式, 因此更容易预测。

DeepMind和牛津大学表示会将其BBC数据集作为训练集发布供同行使用。

(编译自: https://www.newscientist.com/article/2113299-googles-deepmind-ai-can-lip-read-tv-shows-better-than-a-pro)

(本刊讯)  


发布时间: 2017-04-21   浏览: 505
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn