大模型超拟人合成技术PK赛上演微软、讯飞谁是“王者”？

43:00

近期，微软在其Azure AI语音服务领域取得了重大进展，新加入了9款更加逼真、生动的AI语音。微软在提升AI语音的自然度上下足了功夫，尤其是在语调、节奏和情感的捕捉上，使其与人类语音的细微差别更加贴近，从而创造出更为生动和真实的合成语音，这一成果引起了广泛的关注和讨论。

与此同时，微软并非唯一在这一领域领先的公司。早在两个月前，科大讯飞就在其星火V3.5发布会上，抢先推出了超拟人语音合成技术，并将其集成在了讯飞星火APP中，供公众体验。该技术的拟人度高达83%，MOS评分达到了4.5分（满分5分，评分越高表示语音质量越佳）。体验结果显示，其声音流畅自然，表达已非常接近人类的真实声音。

随着大型模型技术的迅猛发展，超拟人合成技术已成为国内外AI巨头竞相争夺的核心领域，一场围绕此技术的激烈竞争正悄然展开。其中，微软与科大讯飞之间的对比尤为引人关注，科大讯飞在超拟人合成技术方面似乎略胜一筹。

回顾历史，自20世纪90年代以来，随着深度学习技术的应用，语音合成技术取得了长足的进步，逐步走向规模化应用，被大众广泛认知。相较于传统的“播音腔”，现代语音合成技术更倾向于模仿人类的日常表达，即所谓的超拟人合成。这种技术不仅注重语音的自然度和流畅度，更关注口语化表达和副语言的频率与细节，以及情感表达的一致性。

目前，微软新上线的AI语音可通过Azure AI服务页面进行试听和调用，而科大讯飞的超拟人合成则可在讯飞星火APP和开放平台上体验。近期，有媒体报道对两者的技术进行了详细评测，发现它们在超拟人合成的拟人度上均有显著提升，成功克服了合成声音的“板正”、“严谨”的问题，并在停顿、语速变化等方面表现出极高的自然度。此外，“哈哈”、“嗯”等常见的口语化词汇与说话内容融合得十分自然。

对比之下，微软的新AI语音覆盖了更多语种和风格，其自然度和流畅度表现较好，但在某些口语化表达上略显突兀；而科大讯飞的超拟人合成在整体拟人化程度上更具优势，其交互和表达效果更加生活化、自然，口语化词汇的融入更为和谐，即使面对中英文混合的情况，也能做到发音自然。

值得注意的是，科大讯飞的超拟人合成在情感表达上表现出色，能够根据不同的情绪强度展现出可感知的变化。相比之下，微软在情感表达上略显不足，合成效果与普通语气并无太大差异。总体而言，科大讯飞在拟人度与情感表达上占据了领先地位。

科大讯飞在超拟人合成技术上的突破，得益于其强大的星火语音大模型。这款模型通过结合星火通用大模型的预测能力，以及对人类口语化表达的学习与还原，大大增强了合成语音的拟人化效果。这一技术的成功，源于科大讯飞多年的技术积累和持续创新。

科大讯飞自成立以来，便在国际语音合成竞赛中屡获殊荣，展现了其在AI语音领域的卓越实力。近年来，公司不断在多语种语音合成应用、方言合成、情感合成等领域进行创新，并推出了SMART-TTS系统，实现多样化的语音合成，能够根据不同需求调节和创作声音。科大讯飞在超拟人合成技术上的领先地位，离不开其长期以来的积累与突破。

随着讯飞星火APP上线超拟人合成技术，获得了广大用户的喜爱，并在开放平台上成为了开发者追捧的对象。这一技术预计将在车载、机器人、智能客服等领域实现广泛应用，并计划在未来不久推出升级版，进一步增强情感反馈能力。

在万物互联的时代背景下，语音正逐渐成为人机交互的主要方式。超拟人合成技术不仅提供了更加自然流畅的交互体验，还通过模拟人类情感和行为，为用户提供更加个性化、富有同理心的服务，从而彻底改变了人机交互的方式。这一领域的市场规模正迅速增长，据预测，全球生成式AI市场规模预计将从2022年的400亿美元，大幅增长至2032年的1.3万亿美元。在中国，生成式AI商业应用规模预计在2025年将达到2070亿元，年均增长率高达84%。超拟人技术作为生成式AI的关键表达形式，展现出了巨大的市场潜力。

在这一领域，包括科大讯飞在内的中国AI企业已经先行一步，实现了技术上的领先，有望在全球市场上占据重要位置。

利空

利好

首页 - 快讯 - 快讯详情

登录

微信扫一扫：分享