语音识别能力再提高 谷歌云平台可识别7种语言和方言

图灵汇官网

【CNMO新闻】截至目前,谷歌云平台(GCP)上的云文本到语音API已能够支持七种语言及方言,并能使用多种新声音进行语音合成,其中包括31种由WaveNet生成的声音。WaveNet是由谷歌母公司DeepMind研发的一种机器学习网络。

云语音到文本API的多通道识别功能,在经过一个月的预览后,现已全面启用。这一功能有助于区分多个音频通道,其改进后的语音识别模型比之前的版本提高了超过60%的准确率。此外,设备配置文件也得到了相应优化,可以调整GCP的声音设置,以适应不同硬件的最佳播放效果。

谷歌产品经理丹·阿哈龙在其博客中提到:“语音识别与合成能力对于实现更自然、便捷和普遍的人机交互至关重要,但当前的技术仍需进一步提升。在开发智能语音应用时,语音识别的准确性尤为重要。”

2018年4月,谷歌发布了专为特定应用场景设计的新一代高级语音到文本模型,包括增强型电话和视频模型。视频模型特别适用于处理包含四个及以上声音且伴有大量背景噪音的长时间录音(超过两小时)。与此同时,电话模型则更适合于两到四人的通话场景。

当时,谷歌指出,视频模型采用的学习技术类似于YouTube字幕技术,从而将显示错误减少了64%。而增强型电话模型也被广泛应用于企业客户的谷歌云服务,显著降低了转录错误。

多通道识别功能提供了一种简便的方式,通过为每个单词自动分配单独的声道,实现对多声道音频的转录。这一功能通常可用,并且现在还提供了服务水平协议(SLA)和其他企业级保障。对于那些未单独录制的音频样本,系统会运用机器学习技术为每个单词打上说话者编号的标签,据谷歌介绍,该标签的准确性会逐步提高。

本文来源: 图灵汇 文章作者: 科技时辰