奇富科技智能语音团队的研究成果《Qifusion-Net:基于特征融合的流式/非流式端到端语音识别框架》成功入选全球语音与声学顶级会议INTERSPEECH 2024,此荣誉标志着该团队在语音识别技术领域取得了显著成就。这是继去年奇富科技团队另一篇论文《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》获得同样国际顶会认可后的又一次里程碑。
INTERSPEECH 由国际语音通讯协会(International Speech Communication Association, ISCA)主办,是全球最大的、最具影响力的语音处理领域科技盛会,吸引了全球各地语音语言领域专家的广泛关注。
Qifusion-Net框架模型在语音识别技术方面展现了多项突破:
方言识别多样性增强:依托丰富的数据样本,该模型在原有基础上,进一步加强了对四川、重庆、山东、河南、贵州、广东、吉林、辽宁、黑龙江等方言区域的识别能力,显著提高了识别准确率,特别是川渝地区,方言识别准确率提升超过35%,整体提升幅度达25%。
精准口音识别与修正:Qifusion-Net具备自动识别不同口音的能力,并能在时间维度上对解码结果进行精确修正,大幅度降低了口音引起的语音识别误差率,整体语音识别字错率下降了16%以上,显著提升了用户体验。
高效实时识别:通过采用创新的层自适应融合结构,模型实现了更高效的方言信息提取,支持即说即译功能,无需额外方言信息即可实时解码不同方言口音的音频,实现了精准识别与翻译,快速响应用户需求。
奇富科技智能语音团队计划于9月参与INTERSPEECH 2024科技盛会,分享其在语音识别领域的最新创新成果,与全球同行共同探讨语音科技的发展趋势与前沿技术。