OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格

图灵汇官网

导读:

OpenAI 推出了 SimpleQA,这是一个专门用于检测大模型在回答事实性问题时准确性的基准测试工具,现已正式开源。

改写内容:

OpenAI 最近发布了一款名为 SimpleQA 的工具,这是一个专注于评估大模型在回答事实性问题时准确性的基准测试平台,现已公开源代码。SimpleQA 包含了 4000 个由人类编写的、明确无歧义的事实性问题,这些题目具有很高的挑战性,即使是当前最先进的一些模型,如 o1-preview 和 Claude Sonnet 3.5,其准确率也不到 50%。

所有问题均经过精心设计,参考答案需经过两位独立标注员的验证,确保其准确性和可靠性,同时也具备时效性。此外,SimpleQA 还能测量大模型的“校准”程度,即模型能否准确评估自己的知识边界,做到“知之为知之,不知为不知”。

尽管 SimpleQA 在准确性方面表现出色,但它主要适用于那些具有单一可验证答案的简短事实查询环境。这意味着,它对于衡量大模型处理复杂任务的能力仍有局限。

图片

(此处保留图片标签)

开源链接:

https://github.com/openai/simple-evals/

参考资料:

https://openai.com/index/introducing-simpleqa

https://cdn.openai.com/papers/simpleqa.pdf

本文来源: 互联网 文章作者: 黄婷
    下一篇

导读:从石库门到云端我们的人民城市作者/IT时报记者贾天荣编辑/孙妍编者按“人民城市人民建,人民城市为人民。”杨浦滨江杨树浦水厂段矗立着一座红色雕塑,是当之无愧的网红“打卡点”。五年前的2019年11