OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判

图灵汇官网

图灵汇报道

图灵汇 1 月 20 日消息,科技媒体 TechCrunch 最近的一篇报道指出,Epoch AI 因未及时披露 OpenAI 的资助而引起争议。这导致其开发的数学基准测试 FrontierMath 的公正性受到了质疑。

Epoch AI 是一个主要由 Open Philanthropy 资助的非营利组织。该组织推出了一项名为 FrontierMath 的基准测试,旨在通过一系列高级数学题来评估 AI 模型的数学能力。在这个测试中,OpenAI 的 o3 模型表现出色,准确率达到 25%,远超其他模型的约 2%。

然而,有承包商在论坛上反映,许多 FrontierMath 的贡献者在项目公开时才得知 OpenAI 参与了该基准的建立。他们认为,承包商在决定是否参与这项工作时应获得充分的信息透明度,以便了解其工作的潜在用途。

此外,几位参与 FrontierMath 设计的数学家表示,他们并未意识到 OpenAI 拥有对某些数据的独家访问权。如果事先知情,他们可能不会参与该项目。部分网友担心,这种缺乏透明度的做法可能会影响 FrontierMath 作为公正基准的地位。

Epoch AI 的副主任兼联合创始人 Tamay Besiroglu 表示,虽然 FrontierMath 的完整性未受影响,但承认在透明度方面存在不足。他提到,他们本应在合作之初就向贡献者提供更多透明信息。

AI 专家 Gary Marcus 将此事与 Theranos 丑闻相比较,认为其严重性不容忽视。Besiroglu 进一步解释说,尽管 OpenAI 可以访问大部分问题和答案,但有一个独立的数据集用于验证模型,以确保公正性。

Besiroglu 强调,尽管他们在合同上有一定限制,但在未来的合作中,透明度将成为他们与 OpenAI 协议中不可谈判的一部分。

本文来源: 互联网 文章作者: 三诺
    下一篇

IT之家 1 月 15 日消息,微软今日宣布将其免费的企业级 AI 助手 Copilot 重新命名为 Microsoft 365 Copilot Chat,提供免费 AI 聊天功能,并新增按需付费的A