一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

图灵汇官网

机器之心报道

最近,OpenAI 发布了他们最新的推理系列模型 o3 和 o3-mini,这是他们在连续更新十二次后推出的最新成果。外界普遍预期的这一更新终于到来,标志着 OpenAI 在实现通用人工智能(AGI)方面取得了新的进展。

从 o1 开始,OpenAI 提出的推理 Scaling Law 显示出实现 AGI 的新希望。为了验证 o3 的推理能力,OpenAI 选择了 ARC-AGI 作为基准测试。这项测试已提出五年,但一直未能被攻克。然而,新模型 o3 成功突破了这一难题,达到了 75.7% 的最低性能,进一步优化后甚至可以达到 87.5% 的准确率。相比之下,o1 在同样的基准测试中的表现仅为 25% 到 32% 之间。

在 ARC-AGI 基准测试中,AI 需要根据配对的“输入 - 输出”示例寻找规律,然后基于一个输入预测输出。虽然测试成本较高,但测试报告表明,新任务的性能确实随着计算量的增加而提高。例如,o3 在低计算量模式下每个任务需要 17-20 美元,而在高计算量模式下则需数千美元。

尽管如此,o3 在某些任务上仍表现出局限性。例如,对于某些特定类型的问题,o3 的表现并不理想,有时甚至无法提供正确的答案。尽管如此,o3 在处理复杂任务时展现了显著的进步,这表明人工智能在适应新任务方面取得了重大突破。

Franois Chollet 在测试报告中提到:“尽管 o3 在一些简单任务上仍有不足,但它确实展示了人工智能能力的巨大进步。”他还指出,o3 在面对某些任务时的表现不佳,表明它与人类智能存在根本差异。例如,o3 在处理某些复杂的视觉任务时,表现不如预期。

总体而言,o3 的发布标志着人工智能领域的一个重要里程碑。尽管在某些任务上还存在局限性,但 o3 展现了强大的适应能力和潜在的发展前景。未来的研究将进一步探索如何克服这些局限,推动人工智能技术的发展。

本文来源: 互联网 文章作者: 姚劲波老乡
    下一篇

导读:人工智能飞速发展,阅读和出版也在经历前所未有的变革。在这个时代,编辑这个行业应该如何跟上时代的浪潮,做出自己的创新?2024年12月27日下午,“辑客出发”编辑沙龙第24期活动暨上海图书出版单位