人们通过聆听和观察说话者的嘴唇动作来感知言语,那么AI能否做到这一点呢?
事实上,研究表明视觉线索在语言学习中扮演着重要角色。相比之下,当前的人工智能语言识别系统主要依赖音频输入,需要大量的数据来训练,通常需要数万小时的录音数据。
为了探究视觉效果,特别是嘴部动作是否能提升语音识别系统的性能,Meta 的研究人员开发了 Audio-Visual Hidden Unit BERT (AV-HuBERT),这是一种能够通过观察和聆听人们说话来理解语言的框架。
Meta 表示,与使用相同数量转录数据的最佳视听语音识别系统相比,AV-HuBERT 的准确率提高了75%。此外,AV-HuBERT 使用的标记数据量仅为前一最佳系统的十分之一,这使得它在处理音视频数据较少的语言时具有更大的潜力。
Meta AI 研究科学家Abdelrahman Mohamed表示:“未来,这样的AI框架可以提升语音识别技术在嘈杂环境下的表现,例如在聚会或繁忙街道上的互动。智能手机助手、增强现实眼镜和配备摄像头的智能音箱,如Alexa Echo Show,都将受益于这项技术。”
目前,Meta已将相关代码开源至GitHub。
AV-HuBERT
Meta并不是首个将人工智能应用于唇读领域的公司。2016年,牛津大学的研究人员开发了一个系统,在某些测试中的准确率几乎是经验丰富的唇读者的两倍,并且能够实时处理视频。2017年,DeepMind训练了一个系统,在测试集中正确翻译约50%的单词,远远超过人类专家的12.4%。
然而,牛津大学和DeepMind的模型,与许多后续的唇读模型一样,仅限于特定词汇范围,并且需要与转录数据配对才能训练,无法处理视频中任何扬声器的音频。
AV-HuBERT的独特之处在于利用了无监督或自我监督的学习方法。不同于需要标记数据的传统监督学习方法,AV-HuBERT能够自学未标记的数据,从数据的内在结构中提取有用信息。
AV-HuBERT是一个多模态系统,通过结合音频和唇部动作的提示来学习感知语言。通过分析说话过程中嘴唇和牙齿的运动等线索以及听觉信息,AV-HuBERT能够捕捉这两种数据类型的细微关联。
最初,AV-HuBERT模型在30小时的TED演讲视频上进行了训练,训练时间远少于此前最先进的模型所需的31,000小时。尽管如此,AV-HuBERT的单词错误率(WER)略优于旧模型,分别为32.5%和33.6%。在433小时的TED演讲训练下,AV-HuBERT的WER进一步降低到28.6%。
一旦AV-HuBERT很好地掌握了数据之间的结构和相关性,研究人员就可以在未标记的数据上进一步训练它。上传至YouTube的2,442小时名人英语视频不仅使WER下降到26.9%,还表明少量标记数据足以训练特定应用(例如多人同时讲话)或不同语言的框架。
事实上,Meta声称,当背景中有响亮的音乐或噪音时,AV-HuBERT在识别一个人的语音方面比纯音频模型高出约50%,当语音和背景噪音同样响亮时,AV-HuBERT的WER为3.2%,而此前最佳的多模态模型为25.5%。
潜在的缺点
从多个角度来看,AV-HuBERT体现了Meta在无监督、多模态技术方面的不断投资。Meta表示,AV-HuBERT能够为开发“低资源”语言的对话模型开辟新途径,还可以用于为有语言障碍的人群创建语音识别系统,以及检测深度伪造和为虚拟现实化身生成逼真的嘴唇运动。
尽管新方法的表现令人瞩目,但也有学者表达了担忧。华盛顿大学的人工智能伦理学专家Os Keye提出,对于患有唐氏综合征、中风等疾病导致面部瘫痪的人群,依赖读唇的语音识别系统还有多大意义?
在微软和卡内基梅隆大学的一篇论文中,提出了人工智能公平性研究路线图,指出类似于AV-HuBERT的面部分析系统可能不适合患有唐氏综合症、软骨发育不全等疾病的患者。
Mohamed强调,AV-HuBERT只关注唇部区域来捕捉唇部运动,而非整个面部。他补充说,与大多数AI模型类似,AV-HuBERT的性能将与训练数据中不同人群的代表性样本数量成正比。
“我们使用了公开的LRS3数据集,该数据集由牛津大学研究人员提供的TED演讲视频组成。由于该数据集并不包括残疾说话者,因此我们无法预期特定的性能下降百分比。”Mohamed说。
Meta表示将继续在背景噪声和说话者重叠的常见日常场景中,测试和改进视听语音识别模型。