一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

投稿
APP
微信扫一扫获取更多

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

姚劲波老乡

2024-12-29 13:22:21

图灵汇官网

机器之心报道

最近，OpenAI 发布了他们最新的推理系列模型 o3 和 o3-mini，这是他们在连续更新十二次后推出的最新成果。外界普遍预期的这一更新终于到来，标志着 OpenAI 在实现通用人工智能（AGI）方面取得了新的进展。

从 o1 开始，OpenAI 提出的推理 Scaling Law 显示出实现 AGI 的新希望。为了验证 o3 的推理能力，OpenAI 选择了 ARC-AGI 作为基准测试。这项测试已提出五年，但一直未能被攻克。然而，新模型 o3 成功突破了这一难题，达到了 75.7% 的最低性能，进一步优化后甚至可以达到 87.5% 的准确率。相比之下，o1 在同样的基准测试中的表现仅为 25% 到 32% 之间。

在 ARC-AGI 基准测试中，AI 需要根据配对的“输入 - 输出”示例寻找规律，然后基于一个输入预测输出。虽然测试成本较高，但测试报告表明，新任务的性能确实随着计算量的增加而提高。例如，o3 在低计算量模式下每个任务需要 17-20 美元，而在高计算量模式下则需数千美元。

尽管如此，o3 在某些任务上仍表现出局限性。例如，对于某些特定类型的问题，o3 的表现并不理想，有时甚至无法提供正确的答案。尽管如此，o3 在处理复杂任务时展现了显著的进步，这表明人工智能在适应新任务方面取得了重大突破。

Franois Chollet 在测试报告中提到：“尽管 o3 在一些简单任务上仍有不足，但它确实展示了人工智能能力的巨大进步。”他还指出，o3 在面对某些任务时的表现不佳，表明它与人类智能存在根本差异。例如，o3 在处理某些复杂的视觉任务时，表现不如预期。

总体而言，o3 的发布标志着人工智能领域的一个重要里程碑。尽管在某些任务上还存在局限性，但 o3 展现了强大的适应能力和潜在的发展前景。未来的研究将进一步探索如何克服这些局限，推动人工智能技术的发展。