新智元报道
编辑:JHY
AI能否掌握数学?
帝国理工学院教授Kevin Buzzard在其最新博文中深入探讨了AI在数学领域的应用前景。Buzzard大胆预测,到2025年,AI有望在国际数学奥林匹克(IMO)竞赛中拿到金牌级别成绩。
自从OpenAI发布了新版模型以来,多项高难度基准测试的最高水平已被刷新。尤其在数学、编程和软件工程领域,新版模型的表现远超之前的版本。
特别值得一提的是,今年11月,Epoch AI发布了名为Frontier Math的新基准测试,其准确率达到25.2%,引起了广泛关注。
联合60多位数学家出题的陶哲轩曾认为,这样的测试会让AI头疼多年。然而,最新的成果打破了这一预期。Buzzard教授指出,AI在某些特定任务上的表现已经超越了他的预期。
Buzzard教授在文章中详细分析了AI在数学研究中的潜力,尤其是在处理复杂计算和验证方面。尽管如此,他认为AI在原创性证明和深刻理解数学概念方面仍存在一定局限。
o3是什么?Frontier Math又是什么?
大多数人认为,语言模型类似于ChatGPT,能够回答各种问题。然而,语言模型的发展远不止于此。虽然早期模型只能生成简单的句子或段落,但现在它们的进步速度惊人。
无人知道这种进步还能持续多久,但巨额投资表明进展不会停滞。这种快速发展带来了诸多挑战,尤其是数据集的保密性问题。
Frontier Math数据集中的问题是寻找具体数字而非证明定理。这些问题需要明确且可计算的答案,并能够自动验证。即使是专业的数学家,解决这些问题也颇具挑战。
Buzzard教授表示,他能够解决数据集中的一部分问题,但对于其他问题,他坦言自己也束手无策。
为什么创建这样的数据集?
传统的「证明这个定理」问题评分成本高昂,而且在2024年,人们对AI在复杂问题上的信任度还不高。相比之下,验证数字是否匹配则容易得多,能在短时间内完成。
数学家们的主要任务是提出证明或构思想法,而非处理数字。然而,由于缺乏高质量的数学数据集,AI的发展受到了限制。因此,Frontier Math数据集依然具有重要价值。
AI在数学领域的突破
不久前,OpenAI的o3在Frontier Math数据集上取得了25.2%的准确率,令整个AI数学界感到震惊。Buzzard教授也对此感到意外。
未来的挑战
尽管AI在某些领域表现出色,但在证明数学定理方面仍有很大差距。DeepMind的AlphaProof项目在2024年国际数学奥林匹克竞赛中解决了四道题,展示了AI在特定任务上的强大能力。
然而,数学家们更希望看到的是能够以人类易于理解的方式正确证明定理的系统。当前的挑战在于,语言模型在逻辑推理方面的准确性较低,而定理证明器虽然准确性较高,但呈现结果的方式有时难以理解。
结论
尽管AI在数学领域取得了显著进展,但仍有许多工作需要完成。特别是如何跨越本科生水平的门槛,以及如何确保AI的证明能够被人类理解和接受,仍是亟待解决的问题。