近期,微软在其Azure AI语音服务领域取得了重大进展,新加入了9款更加逼真、生动的AI语音。微软在提升AI语音的自然度上下足了功夫,尤其是在语调、节奏和情感的捕捉上,使其与人类语音的细微差别更加贴近,从而创造出更为生动和真实的合成语音,这一成果引起了广泛的关注和讨论。
与此同时,微软并非唯一在这一领域领先的公司。早在两个月前,科大讯飞就在其星火V3.5发布会上,抢先推出了超拟人语音合成技术,并将其集成在了讯飞星火APP中,供公众体验。该技术的拟人度高达83%,MOS评分达到了4.5分(满分5分,评分越高表示语音质量越佳)。体验结果显示,其声音流畅自然,表达已非常接近人类的真实声音。
随着大型模型技术的迅猛发展,超拟人合成技术已成为国内外AI巨头竞相争夺的核心领域,一场围绕此技术的激烈竞争正悄然展开。其中,微软与科大讯飞之间的对比尤为引人关注,科大讯飞在超拟人合成技术方面似乎略胜一筹。
回顾历史,自20世纪90年代以来,随着深度学习技术的应用,语音合成技术取得了长足的进步,逐步走向规模化应用,被大众广泛认知。相较于传统的“播音腔”,现代语音合成技术更倾向于模仿人类的日常表达,即所谓的超拟人合成。这种技术不仅注重语音的自然度和流畅度,更关注口语化表达和副语言的频率与细节,以及情感表达的一致性。
目前,微软新上线的AI语音可通过Azure AI服务页面进行试听和调用,而科大讯飞的超拟人合成则可在讯飞星火APP和开放平台上体验。近期,有媒体报道对两者的技术进行了详细评测,发现它们在超拟人合成的拟人度上均有显著提升,成功克服了合成声音的“板正”、“严谨”的问题,并在停顿、语速变化等方面表现出极高的自然度。此外,“哈哈”、“嗯”等常见的口语化词汇与说话内容融合得十分自然。
对比之下,微软的新AI语音覆盖了更多语种和风格,其自然度和流畅度表现较好,但在某些口语化表达上略显突兀;而科大讯飞的超拟人合成在整体拟人化程度上更具优势,其交互和表达效果更加生活化、自然,口语化词汇的融入更为和谐,即使面对中英文混合的情况,也能做到发音自然。
值得注意的是,科大讯飞的超拟人合成在情感表达上表现出色,能够根据不同的情绪强度展现出可感知的变化。相比之下,微软在情感表达上略显不足,合成效果与普通语气并无太大差异。总体而言,科大讯飞在拟人度与情感表达上占据了领先地位。
科大讯飞在超拟人合成技术上的突破,得益于其强大的星火语音大模型。这款模型通过结合星火通用大模型的预测能力,以及对人类口语化表达的学习与还原,大大增强了合成语音的拟人化效果。这一技术的成功,源于科大讯飞多年的技术积累和持续创新。
科大讯飞自成立以来,便在国际语音合成竞赛中屡获殊荣,展现了其在AI语音领域的卓越实力。近年来,公司不断在多语种语音合成应用、方言合成、情感合成等领域进行创新,并推出了SMART-TTS系统,实现多样化的语音合成,能够根据不同需求调节和创作声音。科大讯飞在超拟人合成技术上的领先地位,离不开其长期以来的积累与突破。
随着讯飞星火APP上线超拟人合成技术,获得了广大用户的喜爱,并在开放平台上成为了开发者追捧的对象。这一技术预计将在车载、机器人、智能客服等领域实现广泛应用,并计划在未来不久推出升级版,进一步增强情感反馈能力。
在万物互联的时代背景下,语音正逐渐成为人机交互的主要方式。超拟人合成技术不仅提供了更加自然流畅的交互体验,还通过模拟人类情感和行为,为用户提供更加个性化、富有同理心的服务,从而彻底改变了人机交互的方式。这一领域的市场规模正迅速增长,据预测,全球生成式AI市场规模预计将从2022年的400亿美元,大幅增长至2032年的1.3万亿美元。在中国,生成式AI商业应用规模预计在2025年将达到2070亿元,年均增长率高达84%。超拟人技术作为生成式AI的关键表达形式,展现出了巨大的市场潜力。
在这一领域,包括科大讯飞在内的中国AI企业已经先行一步,实现了技术上的领先,有望在全球市场上占据重要位置。