又一篇，奇富科技智能语音团队论文登上国际顶会INTERSPEECH 2024

投稿
APP
微信扫一扫获取更多

又一篇，奇富科技智能语音团队论文登上国际顶会INTERSPEECH 2024

张艾荣

2024-07-10 13:41:24

图灵汇官网

奇富科技智能语音团队论文荣获全球顶级会议INTERSPEECH 2024认可

奇富科技智能语音团队的研究成果《Qifusion-Net：基于特征融合的流式/非流式端到端语音识别框架》成功入选全球语音与声学顶级会议INTERSPEECH 2024，此荣誉标志着该团队在语音识别技术领域取得了显著成就。这是继去年奇富科技团队另一篇论文《Eden-TTS：一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》获得同样国际顶会认可后的又一次里程碑。

INTERSPEECH 由国际语音通讯协会（International Speech Communication Association, ISCA）主办，是全球最大的、最具影响力的语音处理领域科技盛会，吸引了全球各地语音语言领域专家的广泛关注。

Qifusion-Net框架模型在语音识别技术方面展现了多项突破：

方言识别多样性增强：依托丰富的数据样本，该模型在原有基础上，进一步加强了对四川、重庆、山东、河南、贵州、广东、吉林、辽宁、黑龙江等方言区域的识别能力，显著提高了识别准确率，特别是川渝地区，方言识别准确率提升超过35%，整体提升幅度达25%。

精准口音识别与修正：Qifusion-Net具备自动识别不同口音的能力，并能在时间维度上对解码结果进行精确修正，大幅度降低了口音引起的语音识别误差率，整体语音识别字错率下降了16%以上，显著提升了用户体验。

高效实时识别：通过采用创新的层自适应融合结构，模型实现了更高效的方言信息提取，支持即说即译功能，无需额外方言信息即可实时解码不同方言口音的音频，实现了精准识别与翻译，快速响应用户需求。