OpenAI推出SimpleQA：专治大模型“胡说八道”,实测o1和Claude3.5都不及格_图灵汇

投稿
APP
微信扫一扫获取更多

OpenAI推出SimpleQA：专治大模型“胡说八道”,实测o1和Claude3.5都不及格

黄婷

2024-10-31 18:40:09

图灵汇官网

导读：

OpenAI 推出了 SimpleQA，这是一个专门用于检测大模型在回答事实性问题时准确性的基准测试工具，现已正式开源。

改写内容：

OpenAI 最近发布了一款名为 SimpleQA 的工具，这是一个专注于评估大模型在回答事实性问题时准确性的基准测试平台，现已公开源代码。SimpleQA 包含了 4000 个由人类编写的、明确无歧义的事实性问题，这些题目具有很高的挑战性，即使是当前最先进的一些模型，如 o1-preview 和 Claude Sonnet 3.5，其准确率也不到 50%。

所有问题均经过精心设计，参考答案需经过两位独立标注员的验证，确保其准确性和可靠性，同时也具备时效性。此外，SimpleQA 还能测量大模型的“校准”程度，即模型能否准确评估自己的知识边界，做到“知之为知之，不知为不知”。

尽管 SimpleQA 在准确性方面表现出色，但它主要适用于那些具有单一可验证答案的简短事实查询环境。这意味着，它对于衡量大模型处理复杂任务的能力仍有局限。

图片

（此处保留图片标签）

开源链接：

https://github.com/openai/simple-evals/

参考资料：

https://openai.com/index/introducing-simpleqa

https://cdn.openai.com/papers/simpleqa.pdf

专治实测胡说八道及格 SimpleQA 模型推出 Claude OpenAI 3.5

本文来源：互联网文章作者：黄婷

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: 暌违四年，优傲新品重新“定义”协作机器人
图灵汇

: 谷歌迄今最贵 AI 模型：Gemini 2.5 Pro API 定价公布，每百万输入 tokens 1.25 美元起
图灵汇

: 三星 Galaxy XCover7 Pro 三防手机曝光：骁龙 7s Gen 3 芯片、5000 万主摄，599 欧元
图灵汇

: 微软 Bing 重大革新：Copilot Search 上线，AI 与传统搜索结合
图灵汇

: 比尔・盖茨：我们生来不是为了工作，AI 将取代人类做大部分事情
图灵汇

: 微软 Copilot 变身“AI 管家”：一句话搞定订票购物
图灵汇

下一篇

人民城市有智慧：人工智能高地传统制造更新

沃森展览

2024-10-31

17

导读：从石库门到云端我们的人民城市作者／IT时报记者贾天荣编辑／孙妍编者按“人民城市人民建，人民城市为人民。”杨浦滨江杨树浦水厂段矗立着一座红色雕塑，是当之无愧的网红“打卡点”。五年前的2019年11