OpenAI 推出了 SimpleQA,这是一个专门用于检测大模型在回答事实性问题时准确性的基准测试工具,现已正式开源。
OpenAI 最近发布了一款名为 SimpleQA 的工具,这是一个专注于评估大模型在回答事实性问题时准确性的基准测试平台,现已公开源代码。SimpleQA 包含了 4000 个由人类编写的、明确无歧义的事实性问题,这些题目具有很高的挑战性,即使是当前最先进的一些模型,如 o1-preview 和 Claude Sonnet 3.5,其准确率也不到 50%。
所有问题均经过精心设计,参考答案需经过两位独立标注员的验证,确保其准确性和可靠性,同时也具备时效性。此外,SimpleQA 还能测量大模型的“校准”程度,即模型能否准确评估自己的知识边界,做到“知之为知之,不知为不知”。
尽管 SimpleQA 在准确性方面表现出色,但它主要适用于那些具有单一可验证答案的简短事实查询环境。这意味着,它对于衡量大模型处理复杂任务的能力仍有局限。
(此处保留图片标签)
https://github.com/openai/simple-evals/
https://openai.com/index/introducing-simpleqa
https://cdn.openai.com/papers/simpleqa.pdf