最近,OpenAI 发布了他们最新的推理系列模型 o3 和 o3-mini,这是他们在连续更新十二次后推出的最新成果。外界普遍预期的这一更新终于到来,标志着 OpenAI 在实现通用人工智能(AGI)方面取得了新的进展。
从 o1 开始,OpenAI 提出的推理 Scaling Law 显示出实现 AGI 的新希望。为了验证 o3 的推理能力,OpenAI 选择了 ARC-AGI 作为基准测试。这项测试已提出五年,但一直未能被攻克。然而,新模型 o3 成功突破了这一难题,达到了 75.7% 的最低性能,进一步优化后甚至可以达到 87.5% 的准确率。相比之下,o1 在同样的基准测试中的表现仅为 25% 到 32% 之间。
在 ARC-AGI 基准测试中,AI 需要根据配对的“输入 - 输出”示例寻找规律,然后基于一个输入预测输出。虽然测试成本较高,但测试报告表明,新任务的性能确实随着计算量的增加而提高。例如,o3 在低计算量模式下每个任务需要 17-20 美元,而在高计算量模式下则需数千美元。
尽管如此,o3 在某些任务上仍表现出局限性。例如,对于某些特定类型的问题,o3 的表现并不理想,有时甚至无法提供正确的答案。尽管如此,o3 在处理复杂任务时展现了显著的进步,这表明人工智能在适应新任务方面取得了重大突破。
Franois Chollet 在测试报告中提到:“尽管 o3 在一些简单任务上仍有不足,但它确实展示了人工智能能力的巨大进步。”他还指出,o3 在面对某些任务时的表现不佳,表明它与人类智能存在根本差异。例如,o3 在处理某些复杂的视觉任务时,表现不如预期。
总体而言,o3 的发布标志着人工智能领域的一个重要里程碑。尽管在某些任务上还存在局限性,但 o3 展现了强大的适应能力和潜在的发展前景。未来的研究将进一步探索如何克服这些局限,推动人工智能技术的发展。