小米“新一代Kaldi”项目获奖啦

投稿
APP
微信扫一扫获取更多

小米“新一代Kaldi”项目获奖啦

芯球道

2022-08-04 09:48:50

图灵汇官网

5月26日，在2022数博会上，小米公司的“新一代Kaldi”项目因其全自研的创新成果和显著的社会价值，荣获“数博会领先科技成果奖·新技术”奖项！

中国国际大数据产业博览会（简称数博会）是全球首个专注于大数据主题的博览会，自2015年创立以来，已成为引领行业发展的重要国际盛会。数博会领先科技成果奖在国家科学技术奖励工作办公室备案，是唯一以博览会名义设立且唯一以大数据为主题的专业奖项，具有很高的权威性和含金量。

小米的新一代Kaldi为何能获得如此荣誉？这项技术将如何改变我们的生活？接下来，让我们一起深入了解。

什么是新一代Kaldi

提起Kaldi，很多人可能不太熟悉。它是一个广受欢迎的开源语音识别工具，许多语音团队都在使用Kaldi来开发智能解决方案。“小爱同学”和“苹果Siri”等知名语音产品背后，也离不开Kaldi的支持。Kaldi被视为语音识别框架的基础。

新一代Kaldi项目源自Kaldi，由Kaldi之父Daniel Povey领衔研发。Daniel Povey是一位国际知名的语音识别和人工智能专家，曾任职IBM和微软，并在约翰斯·霍普金斯大学担任副教授。2019年，他加入小米，担任集团首席语音科学家，带领团队研发了“新一代Kaldi”。

2021年8月30日，新一代Kaldi在Interspeech会议上发布了第一个正式版本，得到了众多国际知名专家的认可和关注。

新一代Kaldi背后的技术

新一代Kaldi作为一项完全自主研发的创新成果，功能强大，背后凝聚了大量的先进技术。我们可以将其主要特点概括为三个子项目、两项关键技术以及四个创新点。

三个子项目：

核心算法库k2：相比其他一些语音识别库，k2具有更快的速度和更强的通用性，可用于多种语音识别算法。
- 链接
通用语音数据处理工具包Lhotse：Lhotse是一款更方便易用的数据准备工具，广泛应用于语音领域。
- 链接
语音识别完整解决方案Icefall：Icefall简化了语音识别流程，降低了耦合性，方便网络结构复用。
- 链接

两项关键技术：

支持GPU的不规则张量：使得新一代Kaldi能够高效处理各种不规则数据。
可微分的加权有限状态自动转换器：极大简化了序列建模任务。

四大创新点：

新一代Kaldi解决了上一代Kaldi在神经网络定制难、训练和解码不一致等问题，引入了多项创新方案： 1. 使用可微分的加权有限状态自动转换器进行序列建模，扩展了建模方式。 2. 实现了置信度逐步提升的多级解码方法，用户可根据需求选择不同层级的解码方式。 3. 支持全流程的GPU加速，降低了系统延时。 4. 提供了端到端语音识别系统的构建范式，简化了系统构建过程。