给语音模型戴上「眼镜」，错误率降低12.5%！人大CMU最新开源

投稿
APP
微信扫一扫获取更多

给语音模型戴上「眼镜」，错误率降低12.5%！人大CMU最新开源 | AAAI 2025

AliOS

2025-03-24 15:51:39

在日常生活中，我们常常会遇到这样的情况：身处嘈杂环境时，语音助手难以准确识别我们的指令；或者在视频通话中，对方的发音含糊不清，让我们难以理解。这些问题是自动语音识别（ASR）技术需要解决的挑战之一。尽管这项技术正在快速发展，但在真实的视频场景中，它依然会受到噪声干扰、口语化表达和同音词混淆等问题的困扰。

有没有可能通过结合视觉信息来改善语音识别的效果呢？最近，中国人民大学和卡耐基梅隆大学的研究团队在AAAI 2025会议上发布了一项名为BPO-AVASR的新研究。这项研究提出了一种全新的双焦点偏好优化方法，旨在提升多模态语音识别系统的性能，使其在复杂的真实场景中表现得更为出色。

BPO-AVASR的核心在于通过优化音视频输入和输出偏好，让模型更好地应对各种实际问题。例如，它可以通过模拟噪声环境或视角变化，帮助模型学会在信息不完整的情况下做出更准确的判断。此外，研究团队还设计了多种生成错误文本的方式，比如同音词替换和口语化改写，以训练模型避免常见的识别错误。

实验结果显示，BPO-AVASR在多个数据集上的表现都非常优异。特别是在Ego4D数据集上，它的识别错误率比现有模型降低了12.5%。而在How2数据集上，即使只用了少量数据，BPO-AVASR的表现也超过了那些使用大量数据训练的顶级模型。

这一研究成果不仅展示了多模态语音识别的强大潜力，也为未来的技术发展指明了方向。研究者计划进一步扩大数据集规模，提升模型的适应能力，并探索更多复杂的音视频应用场景。这项工作无疑为实现更智能的人机交互奠定了坚实的基础。