小米“新一代Kaldi”项目获奖啦

图灵汇官网

5月26日,在2022数博会上,小米公司的“新一代Kaldi”项目因其全自研的创新成果和显著的社会价值,荣获“数博会领先科技成果奖·新技术”奖项!

中国国际大数据产业博览会(简称数博会)是全球首个专注于大数据主题的博览会,自2015年创立以来,已成为引领行业发展的重要国际盛会。数博会领先科技成果奖在国家科学技术奖励工作办公室备案,是唯一以博览会名义设立且唯一以大数据为主题的专业奖项,具有很高的权威性和含金量。

小米的新一代Kaldi为何能获得如此荣誉?这项技术将如何改变我们的生活?接下来,让我们一起深入了解。

什么是新一代Kaldi

提起Kaldi,很多人可能不太熟悉。它是一个广受欢迎的开源语音识别工具,许多语音团队都在使用Kaldi来开发智能解决方案。“小爱同学”和“苹果Siri”等知名语音产品背后,也离不开Kaldi的支持。Kaldi被视为语音识别框架的基础。

新一代Kaldi项目源自Kaldi,由Kaldi之父Daniel Povey领衔研发。Daniel Povey是一位国际知名的语音识别和人工智能专家,曾任职IBM和微软,并在约翰斯·霍普金斯大学担任副教授。2019年,他加入小米,担任集团首席语音科学家,带领团队研发了“新一代Kaldi”。

2021年8月30日,新一代Kaldi在Interspeech会议上发布了第一个正式版本,得到了众多国际知名专家的认可和关注。

新一代Kaldi背后的技术

新一代Kaldi作为一项完全自主研发的创新成果,功能强大,背后凝聚了大量的先进技术。我们可以将其主要特点概括为三个子项目、两项关键技术以及四个创新点。

三个子项目:

  1. 核心算法库k2:相比其他一些语音识别库,k2具有更快的速度和更强的通用性,可用于多种语音识别算法。

  2. 通用语音数据处理工具包Lhotse:Lhotse是一款更方便易用的数据准备工具,广泛应用于语音领域。

  3. 语音识别完整解决方案Icefall:Icefall简化了语音识别流程,降低了耦合性,方便网络结构复用。

两项关键技术:

  1. 支持GPU的不规则张量:使得新一代Kaldi能够高效处理各种不规则数据。
  2. 可微分的加权有限状态自动转换器:极大简化了序列建模任务。

四大创新点:

新一代Kaldi解决了上一代Kaldi在神经网络定制难、训练和解码不一致等问题,引入了多项创新方案: 1. 使用可微分的加权有限状态自动转换器进行序列建模,扩展了建模方式。 2. 实现了置信度逐步提升的多级解码方法,用户可根据需求选择不同层级的解码方式。 3. 支持全流程的GPU加速,降低了系统延时。 4. 提供了端到端语音识别系统的构建范式,简化了系统构建过程。

新一代Kaldi正在改变世界

作为开源项目,新一代Kaldi不仅具有“易用性”和“实用性”,还对科技界和学术界产生了重要影响,提升了普通用户的语音识别体验。

新一代Kaldi的诞生显著降低了语音识别技术的研发成本。对于研发人员而言,它大幅缩短了模型更新周期,使原本需要多人完成的任务变为只需少数人即可实现,显著降低了开发和人力成本。

随着新一代Kaldi的广泛应用,相信整个行业可以更高效地构建AI语音系统,推动“小爱同学”等同类语音产品向更智能化方向发展,为每个人带来更好的语音识别体验,大大方便了普通用户和家庭的生活。

开源的本质在于技术共享。我们将继续坚持技术创新,不断进步。未来,希望新一代Kaldi项目能够惠及全球的开发者、中小企业以及每一位用户,让每个人都能享受到更完美的智能语音体验。

本文来源: 图灵汇 文章作者: 芯球道