人工智能(AI)正在入侵唇读领域。Google的DeepMind和牛津大学的一个合作项目将深度学习应用到BBC的一个庞大的数据集中, 以创建一个唇部阅读系统。唇读是人类一项独特的技艺, 也是非常困难的一件事, 它对于语言语境和知识理解的要求并不亚于视觉上的线索, 然而 AI 又做到了。
该AI系统从6个不同的电视节目, 包括Newsnight, BBC Breakfast和Question Time的约5 000小时的节目中进行训练。这些视频总共包含118 000个句子。牛津大学和DeepMind研究人员先是在2010年1月至2015年12月期间播出的节目上对AI系统进行了训练。然后, 在2016年3月至9月间播出的节目中进行测试。
通过观察节目中说话者的唇形, 系统能准确地解读出文字, 例如: “我们知道这里还有数百名记者会出席(We know there will be hundreds of journalists here as
well)”和“根据国家统计局的最新数据(According to the latest figures from the Office of National
Statistics)”。
在测试集中随机选取的 200 个说话场景唇读对比测试中, 人类专家的准确率为12.4%, 而AI的准确率为46.8%。而且 AI 所犯错误中有很多其实无关紧要, 比如在复数后面漏掉一个“s”之类。
不久前, 牛津大学曾开发了一个名为LipNet的类似的深度学习系统, 它在GRID唇读数据集上以93.4%对52.3%的大比分远超人类唇读专家。但是, GRID的词汇表只包含51个独特的词汇, 而BBC数据集则包含近17 500个独特词汇, 这无疑是一个更大的挑战。此外, BBC数据集中的语法来自多种多样的真实人类语言, 而GRID的33 000个句子中的语法遵循相同的模式, 因此更容易预测。
DeepMind和牛津大学表示会将其BBC数据集作为训练集发布供同行使用。
(编译自: https://www.newscientist.com/article/2113299-googles-deepmind-ai-can-lip-read-tv-shows-better-than-a-pro)
(本刊讯)
|