中国电信发布语音识别大模型，支持30种方言混说

投稿
APP
微信扫一扫获取更多

中国电信发布语音识别大模型，支持30种方言混说

陈思锐

2024-05-26 22:54:12

5月25日，记者从中国电信了解到，中国电信人工智能研究院（TeleAI）近期发布了一款名为“星辰超多方言语音识别大模型”的新产品，这是行业内首款支持30种方言自由混合对话的语音识别大模型，能够同时识别包括粤语、上海话、四川话、温州话在内的30多种方言，成为目前支持方言种类最多的语音识别大模型。

中国电信人工智能研究院已经建立了包含超过30种方言、总计超过30万小时的高质量方言数据库。研发团队采用了一种名为“蒸馏+膨胀”的联合训练算法，有效解决了在超大规模多场景数据集和大规模参数条件下预训练模型可能出现的坍缩问题，实现了1B参数80层模型的稳定训练。中国电信表示，这款星辰语音大模型是业内首个基于离散语音表征的开源语音识别大模型，通过“从语音到token再到文本”的新训练模式，显著降低了推理过程中的语音传输比特率。

据了解，星辰语音大模型现已对外开放，并应用于多个地区的智能客服系统，如福建、江西、广西、北京、内蒙古等地的中国电信万号智能客服项目。此外，在5月24日开幕的第七届数字中国建设峰会上，中国电信展示了其智算云能力体系，该体系由算力基础设施、智算平台能力、星辰大模型能力以及数据要素能力四部分构成。

另外，除了语音识别大模型，中国电信还推出了名为“星辰海纳视联大模型”的产品。据天翼视联科技有限公司总经理边延风介绍，天翼视联的视联网应用日益丰富，目前已有超过1400个SaaS应用，并且每月通过openAPI调用次数超过了30亿次。