开源大模型新王干翻GPT4o，新技术可自我纠错，数学99.2刷爆测试集

投稿
APP
微信扫一扫获取更多

开源大模型新王干翻GPT4o，新技术可自我纠错，数学99.2刷爆测试集

陈平

2024-09-06 18:27:35

图灵汇官网

标题：新秀创业团队以创新技术夺下开源大模型王座

摘要：一场科技界的惊喜风暴来袭，一家小型创业团队凭借其独创的训练技术，成功将开源大模型的王冠戴在自家头上，这一消息瞬间在全球科技圈内引发轰动。

新模型Reflection 70B，以其革命性的“反思”训练方法，赋予AI在推理过程中自我纠错和自我觉察的能力。这一创新使得AI不仅能在常见的数理测试中纠正自身的错误判断，还能在面对复杂问题时，通过自我反思，避免陷入认知偏误。

在官方的严格评测中，Reflection 70B全面超越了包括Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro在内的顶级开源模型，特别是在数学基准GSM8K上的表现尤为突出，准确率高达99.2%。这一成就不仅震撼了科技界，更是让OpenAI科学家、德州扑克AI之父Noam Brown激动不已，直呼GSM8K得分99%，是否意味着可以考虑淘汰这一基准测试？

用户反馈显示，模型上线后即刻吸引大量网友进行试玩，甚至迫使Meta主动提供更多的计算资源以应对激增的需求。网友们对于这款由小型团队打造的开源模型表示了极大的惊喜，认为这标志着最强的开源模型现在可以在本地运行。

官方预告，即将发布更大的Reflection 405B版本，预计性能将显著超过Sonnet和GPT-4o。此外，模型的权重已经公开，Hyperbolic Labs将提供API访问服务。

创新训练方法：Reflection 70B的核心竞争力在于其独特的“反思”训练技术，该技术允许AI在生成文本时反思自己的推理过程，从而在最终确定回应之前检测并纠正可能的错误。这一方法在数据来源、结构化输出以及与Llama 3.1 70B的兼容性方面进行了优化，引入了特定的tokens以提高推理效率和答案的准确性。

模型特性：Reflection 70B基于Llama 3.1 70B Instruct架构，可以利用与Llama模型相同的代码和pipeline进行采样。它采用了标准的Llama 3.1聊天格式，但在推理过程中引入了额外的结构化输出，例如在和标签内输出推理过程，以及在和标签内输出最终答案。这种设计有助于将内部思考与最终答案清晰分离，提高CoT（chain of thought）的效果，并保持输出的精炼性。

值得注意的是，所有基准测试均通过了LMSys的LLM Decontaminator的检查，确保了测试环境的纯净性。在实际使用时，官方推荐的参数设置包括温度（temperature）为0.7和top_p为0.95，以优化准确性。此外，建议在提示（prompt）末尾添加“Think carefully.”以进一步提高模型的反应质量。

背后团队：Reflection 70B的研发团队由HyperWriteAI的CEO Mutt Shumer领导。Mutt Shumer是一位经验丰富的连续创业者，拥有美国锡拉丘兹大学的背景，并且是OthersideAI的联合创始人兼CEO。OthersideAI专注于开发大规模AI系统，以创建全球领先的自动补全工具，而HyperWrite则是其开发的一款浏览器操作代理，具备完成一系列任务的能力，如在线订购披萨等。

尽管得到了Meta的支持，但目前尚无法直接访问试玩平台，感兴趣的用户可以先关注相关信息并做好准备。

相关链接： 1. Hugging Face 2. Twitter 3. Twitter 4. Twitter 5. Twitter