「商机」语音识别:发力精准高效

图灵汇官网

语音识别:精准高效的突破

语音作为一种自然的交流方式,始终是人机交互的重要研究领域。目前,语音识别的基础框架已经从复杂的混合语音识别系统转变为更为高效便捷的端到端语音识别系统。近年来,我国智能语音产业快速发展,核心技术取得显著进展。当前,语音识别的准确率已达到98%,并且在多个方面实现了重要突破。

随着近场语音识别准确性的提升、远场语音识别和唤醒功能的发展、全双工语音交互的出现以及基于自然语言处理(NLP)的对话和问答能力的成熟,智能语音技术的应用范围不断扩大。知识图谱技术的应用也进一步提升了对话引擎的能力,使得智能语音技术的实际应用更加广泛。此外,针对实际应用中的算法优化,也显著提高了语音识别技术的可用性。据业内报告预测,到2027年,全球智能语音市场规模将达到281亿美元,复合年增长率将达到24.4%。

阿里巴巴达摩院近期发布了新一代语音识别模型Paraformer,该模型在推理效率上比传统模型提升了10倍,且识别准确率较高。Paraformer首次在工业级应用层面解决了端到端识别效果与效率兼顾的问题,未来将在会议纪要产品“听悟”、钉钉语音转文字、高德导航等多个场景中广泛应用。近年来,阿里语音团队已推出多款重要的语音识别模型,其中包括首次将识别准确率提升至96%的DFSMN模型及E2E-ASR端到端语音识别技术。根据去年7月发布的《云AI开发者服务关键能力报告》,阿里在语音识别项目上的评分与谷歌等公司并列全球第一,创下中国企业的最佳成绩。

本文来源: 图灵汇 文章作者: 罗慧玲