阿里达摩院近期发布了一款全新的语音识别模型——Paraformer,这款模型被认为是他们的王牌之作。
Paraformer不仅在多个权威数据集上取得了最佳识别效果,其推理效率相比传统模型也有显著提升,最高可达10倍。此外,Paraformer已经开源,适用于多种场景,如语音输入法、智能客服、车载导航和会议纪要等。
那么,Paraformer是如何实现这些突破的呢?
Paraformer采用了非自回归模型,解决了端到端语音识别中识别效果与效率难以兼顾的问题。相较于传统的自回归模型,非自回归模型虽然在预测目标文字数量方面表现较好,但在替换错误方面存在不足。Paraformer通过创新的方法,有效缓解了这些问题。
具体来说,Paraformer包含以下几个关键组件:
在实际测试中,Paraformer在中文语音识别任务中表现出色。例如,在AISHELL-1数据集上,Paraformer-large模型的识别准确率远超其他公开论文中的模型。在专业的第三方评测中,Paraformer-large的识别准确率超过了98%,成为目前最准确的中文语音识别模型之一。
此外,Paraformer在使用GPU进行推理时,推理效率可以提升5至10倍。为了进一步提高效率,Paraformer采用了低帧率建模方案,将计算量降低了近6倍,从而支持大模型的高效推理。
欢迎各位开发者下载Paraformer并分享使用体验。量子位还提供了阿里研发的会议纪要产品“听悟”的特邀用户年度权益卡,每天可使用离线语音/视频转写10小时,实时转写8小时,价值超过万元。
访问链接获取更多信息: - Paraformer模型页面 - 论文地址
— 完 —
希望以上内容符合您的需求。