OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下

图灵汇官网

导读

最近,关于OpenAI的o1模型在数学推理方面的真实能力引发了讨论。来自香港大学的研究人员对其进行了严格的AB测试,以验证其在非公开的国家队奥数题中的表现。这项研究表明,o1不仅能够应对国际数学奥林匹克(IMO)的挑战,还能在更复杂的中国国家队训练营(CNT)试题中取得优异成绩。

研究背景

如何判断一个大型语言模型(LLM)是否具备强大的数学推理能力?研究人员设计了一种测试方法,即让模型参加两场难度相同的考试,一场是容易获取的IMO试题,另一场是难以获取的CNT试题。如果模型在这两场考试中的表现相当,就证明其推理能力而非记忆能力在起作用。

测试方法

在本次测试中,OpenAI的Orion-1模型(简称o1)面临的两份试卷分别来自IMO和CNT。IMO试题相对容易获得,而CNT试题则无法公开访问。通过对比o1在不同数据集上的表现,研究人员得出了重要结论:o1的数学推理能力并非简单的记忆,而是真正的实力。

论文细节

OpenAI o1模型的推出引起了广泛关注。该模型采用了强化学习技术,通过模拟推理和反思过程来提升其数学推理能力。从本质上讲,o1的推理过程是一个制定和执行计划的过程。尽管OpenAI表示o1在AIME数学竞赛中表现优异,但也有部分评测认为其效果并不理想。

数据集与测试假设

为了公平测试o1的数学推理能力,研究人员编译了两个数据集进行分析。第一个数据集包含过去十年IMO的60个问题,第二个数据集则包含CNT的60个问题(非公开)。研究假设o1-mini的问题解决能力基于推理能力,而不是简单的记忆或模仿预训练模式。

实验测试

实验过程中,研究人员将问题从PDF格式转换为LaTeX格式,以便o1可以轻松读取和处理。o1无需额外的提示,直接处理LaTeX格式的问题文件。评分标准参照IMO或CNT数学竞赛的标准,每题最高7分。

结果评估

实验结果表明,o1-mini在搜索类型和解决类型的问题中均表现良好,且在IMO和CNT数据集上的表现无显著差异。这表明o1-mini的数学推理能力并非简单的记忆,而是源于其推理能力。

案例分析

在某些情况下,o1-mini提供了有用的直觉,并给出了正确答案。然而,它有时未能提供完整的推理过程。例如,在一个搜索类型的问题中,o1-mini找到了满足条件的数字模式,但没有解释为什么其他数字不可行。在另一个问题中,o1-mini通过暴力破解方法找到了答案,但在空间推理方面仍显不足。

总结

这项研究表明,OpenAI的o1模型在数学推理方面表现出色,尤其是在处理复杂的数学问题时。尽管在某些细节上仍有改进空间,但总体来看,o1-mini的推理能力得到了充分验证。

本文来源: 互联网 文章作者: 刘思
    下一篇

导读:机器之心报道机器之心编辑部蚂蚁数科、浙江大学、利物浦大学和华东师范大学团队:构筑更好的大模型隐私保护。要让大模型适应各不一样的下游任务,微调必不可少。常规的中心化微调过程需要模型和数据存在于同一