每经记者:杨昕怡
当强大的数学推理模型能够像人类一样思考时,许多难题都将迎刃而解。本文介绍了月之暗面创始人杨植麟发布的最新数学推理模型k0-math,以及它在各种基准测试中的表现。
一道复杂的数学奥赛题目、一场学术会议中的讨论、一个需要大量研究才能做出的生活决策——当AI具备人类般的思考能力时,这些问题都可以迅速解决。“什么样的场景最适合让AI锻炼思考能力?我们认为是数学场景。”
11月16日,月之暗面创始人杨植麟发布了新一代数学推理模型k0-math,该模型在中考、高考、考研以及包含竞赛题的MATH等基准测试中表现出色。k0-math的初代模型成绩已经超过了OpenAI的o1-mini和o1-preview模型。
“这可以说是,国内首个成功模仿OpenAI o1系列技术的公司。”一位国内互联网公司的技术专家表示,k0-math采用了全新的强化学习和思维链(CoT)推理技术,这一技术正是OpenAI o1系列的核心。
在过去的一年多时间里,随着新技术、新团队和新应用的不断涌现,AI行业发生了显著变化。从月之暗面、零一万物等新兴公司到各大互联网巨头,AI智能助手领域的竞争日益激烈。目前,豆包和Kimi的领先使这一领域呈现出“两超多强”的格局。
“如果你有100枚硬币,每枚硬币正面朝上。每次翻转包含当前正面朝上的硬币及其相邻的两枚硬币。最少需要翻转多少次才能使所有硬币反面朝上?”
Kimi数学版展示了出色的解题能力,在短短40秒内完成了问题分解、多种解法尝试、验证并正确作答的全过程。这种能力体现了模型的自我思考能力。
今年9月,OpenAI创始人Sam Altman认为,o1系列的诞生标志着一种新的范式开始,其通过模仿人类思维过程进行的强化学习和思维链技术,极大地提升了AI推理能力。在此背景下,Kimi于11月16日推出了国内首个同类模型。
K0-math在解题过程中更加注重推理,包括思考和规划思路,并在必要时反思和改进解题思路,从而提高答题成功率。
发布会上,月之暗面公布了k0-math的评测得分。在MATH基准测试中,k0-math模型得分93.8分,超过o1-mini的90分和o1-preview的85.5分。在更难的竞赛级别的数学题库OMNI-MATH和AIME基准测试中,k0-math的表现也非常出色。
通过实际测试,Kimi数学版用时2分10秒完成了某道数学题的解答,而o1-mini和o1-preview虽在时间上略占优势,但未能正确解答。
杨植麟表示,该数学推理模型的技术可以应用于更多场景,例如让Kimi探索版进行更多探索。在实际测试中,Kimi探索版展现了强大的搜索能力和意图理解能力。
Kimi探索版在搜索量、搜索内容和生成内容方面表现出明显优势,尤其是在学术研究和市场分析等专业应用场景中。据统计,截至今年10月,豆包和Kimi的下载量均已突破5000万,其中豆包下载量破亿,Kimi超过5700万。
在全球范围内,Kimi和豆包在苹果端下载量排名前列,占据全球苹果端AI APP下载量的51%。Kimi的用户黏性和活跃度也名列前茅,截至10月,Kimi的月活用户已超过3600万。
杨植麟强调,月之暗面将专注于提升模型的思考和推理能力,为用户提供真正的价值,而非仅仅追求差异化。未来,他们将继续致力于这一目标。