给语音模型戴上「眼镜」,错误率降低12.5%!人大CMU最新开源 | AAAI 2025

图灵汇官网

在日常生活中,我们常常会遇到这样的情况:身处嘈杂环境时,语音助手难以准确识别我们的指令;或者在视频通话中,对方的发音含糊不清,让我们难以理解。这些问题是自动语音识别(ASR)技术需要解决的挑战之一。尽管这项技术正在快速发展,但在真实的视频场景中,它依然会受到噪声干扰、口语化表达和同音词混淆等问题的困扰。

有没有可能通过结合视觉信息来改善语音识别的效果呢?最近,中国人民大学和卡耐基梅隆大学的研究团队在AAAI 2025会议上发布了一项名为BPO-AVASR的新研究。这项研究提出了一种全新的双焦点偏好优化方法,旨在提升多模态语音识别系统的性能,使其在复杂的真实场景中表现得更为出色。

BPO-AVASR的核心在于通过优化音视频输入和输出偏好,让模型更好地应对各种实际问题。例如,它可以通过模拟噪声环境或视角变化,帮助模型学会在信息不完整的情况下做出更准确的判断。此外,研究团队还设计了多种生成错误文本的方式,比如同音词替换和口语化改写,以训练模型避免常见的识别错误。

实验结果显示,BPO-AVASR在多个数据集上的表现都非常优异。特别是在Ego4D数据集上,它的识别错误率比现有模型降低了12.5%。而在How2数据集上,即使只用了少量数据,BPO-AVASR的表现也超过了那些使用大量数据训练的顶级模型。

这一研究成果不仅展示了多模态语音识别的强大潜力,也为未来的技术发展指明了方向。研究者计划进一步扩大数据集规模,提升模型的适应能力,并探索更多复杂的音视频应用场景。这项工作无疑为实现更智能的人机交互奠定了坚实的基础。

本文来源: 互联网 文章作者: AliOS
    下一篇

导读:IT之家 4 月 10 日消息,在本周三的谷歌 Cloud Next 大会上,谷歌宣布其 AI 编程助手 Gemini Code Assist 新增“代理”功能。谷歌表示,Code Assist