Kimi、豆包领跑，国产AI迎来新格局

投稿
APP
微信扫一扫获取更多

Kimi、豆包领跑，国产AI迎来新格局

丁舒熳

2024-11-26 08:07:15

图灵汇官网

导读

每经记者：杨昕怡

当强大的数学推理模型能够像人类一样思考时，许多难题都将迎刃而解。本文介绍了月之暗面创始人杨植麟发布的最新数学推理模型k0-math，以及它在各种基准测试中的表现。

数学推理模型k0-math发布

一道复杂的数学奥赛题目、一场学术会议中的讨论、一个需要大量研究才能做出的生活决策——当AI具备人类般的思考能力时，这些问题都可以迅速解决。“什么样的场景最适合让AI锻炼思考能力？我们认为是数学场景。”

11月16日，月之暗面创始人杨植麟发布了新一代数学推理模型k0-math，该模型在中考、高考、考研以及包含竞赛题的MATH等基准测试中表现出色。k0-math的初代模型成绩已经超过了OpenAI的o1-mini和o1-preview模型。

技术创新与行业影响

“这可以说是，国内首个成功模仿OpenAI o1系列技术的公司。”一位国内互联网公司的技术专家表示，k0-math采用了全新的强化学习和思维链（CoT）推理技术，这一技术正是OpenAI o1系列的核心。

在过去的一年多时间里，随着新技术、新团队和新应用的不断涌现，AI行业发生了显著变化。从月之暗面、零一万物等新兴公司到各大互联网巨头，AI智能助手领域的竞争日益激烈。目前，豆包和Kimi的领先使这一领域呈现出“两超多强”的格局。

新模型登场

Kimi对标o1

“如果你有100枚硬币，每枚硬币正面朝上。每次翻转包含当前正面朝上的硬币及其相邻的两枚硬币。最少需要翻转多少次才能使所有硬币反面朝上？”

Kimi数学版展示了出色的解题能力，在短短40秒内完成了问题分解、多种解法尝试、验证并正确作答的全过程。这种能力体现了模型的自我思考能力。

今年9月，OpenAI创始人Sam Altman认为，o1系列的诞生标志着一种新的范式开始，其通过模仿人类思维过程进行的强化学习和思维链技术，极大地提升了AI推理能力。在此背景下，Kimi于11月16日推出了国内首个同类模型。

K0-math在解题过程中更加注重推理，包括思考和规划思路，并在必要时反思和改进解题思路，从而提高答题成功率。

测试结果

发布会上，月之暗面公布了k0-math的评测得分。在MATH基准测试中，k0-math模型得分93.8分，超过o1-mini的90分和o1-preview的85.5分。在更难的竞赛级别的数学题库OMNI-MATH和AIME基准测试中，k0-math的表现也非常出色。

通过实际测试，Kimi数学版用时2分10秒完成了某道数学题的解答，而o1-mini和o1-preview虽在时间上略占优势，但未能正确解答。

应用前景

杨植麟表示，该数学推理模型的技术可以应用于更多场景，例如让Kimi探索版进行更多探索。在实际测试中，Kimi探索版展现了强大的搜索能力和意图理解能力。

用户反响

Kimi探索版在搜索量、搜索内容和生成内容方面表现出明显优势，尤其是在学术研究和市场分析等专业应用场景中。据统计，截至今年10月，豆包和Kimi的下载量均已突破5000万，其中豆包下载量破亿，Kimi超过5700万。

在全球范围内，Kimi和豆包在苹果端下载量排名前列，占据全球苹果端AI APP下载量的51%。Kimi的用户黏性和活跃度也名列前茅，截至10月，Kimi的月活用户已超过3600万。

结语

杨植麟强调，月之暗面将专注于提升模型的思考和推理能力，为用户提供真正的价值，而非仅仅追求差异化。未来，他们将继续致力于这一目标。

豆包领跑格局迎来国产 Kimi

本文来源：互联网文章作者：丁舒熳

24小时热文

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: 暌违四年，优傲新品重新“定义”协作机器人
图灵汇

Kimi、豆包领跑，国产AI迎来新格局

微信扫一扫：分享

导读

数学推理模型k0-math发布

技术创新与行业影响

新模型登场

Kimi对标o1

测试结果

应用前景

用户反响

结语

微信扫一扫：分享

知乎周源“解答”AI搜索：仍在早期阶段 谈商业化为时尚早

知乎周源“解答”AI搜索：仍在早期阶段谈商业化为时尚早