多模态识别技术的最新进展再次引发关注,搜狗与清华大学天工研究院合作开发的新技术已成功被ICASSP2019收录。这项技术将语音和视觉信息结合起来,显著提升了语音识别的准确性。
近年来,虚拟助理技术已成为人们追求的理想目标,尽管距离实现这一愿景还有一定距离。为了实现这一目标,行业近年来逐渐转向多模态交互的研究,即将语音、视觉和文本等多种信息形式结合在一起,以提高人机交互的效率。搜狗在这方面走在了前列,早在2017年就开始探索唇语识别技术,并于2018年推出了合成虚拟主播。最近,搜狗与清华大学天工研究院合作发表了一篇关于《基于模态注意力的端到端音视觉语音识别》的论文,进一步推动了多模态识别技术的发展。
从最初的语音交互到唇语识别,再到机器翻译和合成主播,搜狗的技术进步可谓一步一个脚印。这一切都得益于搜狗在“自然交互+知识计算”理念的指导下,不断攻克技术难关,使人机交互变得更加高效和自然。
随着AI技术的发展,语音交互已经成为智能硬件的标配。尽管在安静环境中,语音识别的准确率可以达到98%以上,但在嘈杂环境下,识别效果却大幅下降。目前,大多数解决方案依赖麦克风阵列进行信号处理,但这种方法在复杂噪声环境下仍存在局限。
为了寻找新的解决方案,搜狗与清华大学天工研究院尝试将语音和视觉信息结合起来,利用多模态识别技术来提高语音识别的准确性。搜狗的研究人员发现,通过结合语音和唇形识别,可以在噪声环境下提升30%以上的识别准确率。
多模态识别的核心在于如何有效地将不同模态的信息融合在一起。声音和视觉信息在特征上存在显著差异,简单的拼接会导致信息损失。搜狗提出了一种模态注意力机制,可以根据不同模态信息的重要性动态调整融合权重,从而得到更加鲁棒的结果。
清华大学天工研究院的研究员指出,音视觉信息融合过程中需要解决两个关键问题:一是不同模态信息长度不一致的问题,二是不同模态信息贡献度不一致的问题。搜狗提出的模态注意力端到端模型可以有效应对这些问题,根据环境动态调整音视频信息的融合比例,从而提升识别效果。
在实验中,搜狗模拟了多种环境,包括安静环境、地铁和大厅等。结果显示,在安静环境下,语音识别的准确率较高;而在嘈杂环境下,唇语识别的准确率明显优于语音识别。混合识别模式则能综合两者的优点,达到最佳的识别效果。例如,在地铁这种噪声环境下,搜狗研究员杨文文演示了混合识别模式,成功识别出“打电话给爸爸”这一指令。
搜狗计划在未来几年内将音视觉识别技术应用于实际产品中,尤其是搜狗输入法和智能汽车等领域。这种技术的应用有望大幅提升现有AI系统的性能,创造出更大的商业价值。