OpenAI o3 碾压式 AI 数学成绩遭质疑：既当选手又是裁判

三诺

2025-01-20 13:19:43

图灵汇 1 月 20 日消息，科技媒体 TechCrunch 最近的一篇报道指出，Epoch AI 因未及时披露 OpenAI 的资助而引起争议。这导致其开发的数学基准测试 FrontierMath 的公正性受到了质疑。

Epoch AI 是一个主要由 Open Philanthropy 资助的非营利组织。该组织推出了一项名为 FrontierMath 的基准测试，旨在通过一系列高级数学题来评估 AI 模型的数学能力。在这个测试中，OpenAI 的 o3 模型表现出色，准确率达到 25%，远超其他模型的约 2%。

然而，有承包商在论坛上反映，许多 FrontierMath 的贡献者在项目公开时才得知 OpenAI 参与了该基准的建立。他们认为，承包商在决定是否参与这项工作时应获得充分的信息透明度，以便了解其工作的潜在用途。

此外，几位参与 FrontierMath 设计的数学家表示，他们并未意识到 OpenAI 拥有对某些数据的独家访问权。如果事先知情，他们可能不会参与该项目。部分网友担心，这种缺乏透明度的做法可能会影响 FrontierMath 作为公正基准的地位。

Epoch AI 的副主任兼联合创始人 Tamay Besiroglu 表示，虽然 FrontierMath 的完整性未受影响，但承认在透明度方面存在不足。他提到，他们本应在合作之初就向贡献者提供更多透明信息。

AI 专家 Gary Marcus 将此事与 Theranos 丑闻相比较，认为其严重性不容忽视。Besiroglu 进一步解释说，尽管 OpenAI 可以访问大部分问题和答案，但有一个独立的数据集用于验证模型，以确保公正性。

Besiroglu 强调，尽管他们在合同上有一定限制，但在未来的合作中，透明度将成为他们与 OpenAI 协议中不可谈判的一部分。

碾压裁判选手质疑成绩数学又是 OpenAI o3 AI

本文来源：互联网文章作者：三诺

魏铭嘉

2025-01-15

IT之家 1 月 15 日消息，微软今日宣布将其免费的企业级 AI 助手 Copilot 重新命名为 Microsoft 365 Copilot Chat，提供免费 AI 聊天功能，并新增按需付费的A

微软为企业推出 Copilot Chat：提供免费 AI 聊天和按需付费 AI 代理功能