腾讯宣布,新一代实时语音编码行业标准AVS3P10即将正式发布。这项由腾讯发起、推进和维护的创新成果,以其首款神经网络语音编解码器Penguins为核心,汇聚了AVS音频组多家单位的智慧结晶。
全球领先,低码率高质音效
AVS3P10是全球首个全面引入人工智能的语音编码标准,它在保持低码率的同时,实现了与国际一流水准相当的音质。相较于现有主流标准,其只需三分之一的编码码率,即可实现同样清晰的语音传输,展现出显著的高效能优势。
这项技术的革新意味着,在线上会议、语音通话等实时音频场景中,带宽需求大幅降低。即便在网络条件不佳的环境下,如电梯、地下车库、隧道等,也能确保清晰流畅的语音通话体验,极大地提升了用户体验。
AI驱动的语音编码技术
面对现有主流音频编解码标准在低码率下的语音质量挑战,腾讯会议天籁实验室与腾讯AI Lab合作研发了Penguins神经网络语音编解码器,以此作为AVS3P10标准采纳的核心方案。Penguins通过结合AI与传统技术,实现了算法研究、工程化、产品化的系统性创新,突破了传统性能极限,为下一代通信系统特别是信源编码器部分提供了强大的技术支持。
Penguins采用AI语音信号建模,提取核心特征参数进行编码,利用深度学习网络预测并重构语音细节,生成逼真的音频波形。多轮测试证明,AVS3P10标准在6kbps码率下实现了高质量语音通信,即使在“2G”网络环境下也能确保清晰通话,主观质量接近甚至优于国际主流标准OPUS在20kbps的水平。
自2021年起,Penguins编码器已在腾讯会议、驾驶模式、弱网模式及QQ语音通话等场景中大规模部署,支持数亿用户的流畅沟通。无论在复杂网络环境中,还是高速移动的交通工具上,都能提供清晰稳定的音频通信体验。
标准制定与行业贡献
2023年3月,腾讯团队主动提议并参与AVS音频组标准制定,推动了AVS3P10实时语音编码标准的诞生。经过严格的交叉验证,腾讯基于Penguins的技术方案最终被采纳。2024年6月,该标准正式完成标准化工作,进入公示阶段。
AVS工作组的高度评价
AVS工作组对此给予了高度评价,认为AVS3P10的制定速度快、标准交付质量高,得到了充分的认可。这一标准的发布,不仅展示了腾讯在语音处理、AI技术创新以及用户体验方面的实力,也为全球实时语音通信技术带来了新的里程碑。
腾讯会议天籁实验室持续探索编解码、音频降噪、语音增强等领域的前沿技术,致力于打造全球领先的实时音频通信端到端解决方案。通过不断将科研成果应用于产品,腾讯正持续优化用户体验,确保用户在任何网络环境下都能享受到“听得清、听得真”的极致通信体验。