开源大模型新王干翻GPT4o,新技术可自我纠错,数学99.2刷爆测试集

图灵汇官网

标题:新秀创业团队以创新技术夺下开源大模型王座

摘要:一场科技界的惊喜风暴来袭,一家小型创业团队凭借其独创的训练技术,成功将开源大模型的王冠戴在自家头上,这一消息瞬间在全球科技圈内引发轰动。

新模型Reflection 70B,以其革命性的“反思”训练方法,赋予AI在推理过程中自我纠错和自我觉察的能力。这一创新使得AI不仅能在常见的数理测试中纠正自身的错误判断,还能在面对复杂问题时,通过自我反思,避免陷入认知偏误。

在官方的严格评测中,Reflection 70B全面超越了包括Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro在内的顶级开源模型,特别是在数学基准GSM8K上的表现尤为突出,准确率高达99.2%。这一成就不仅震撼了科技界,更是让OpenAI科学家、德州扑克AI之父Noam Brown激动不已,直呼GSM8K得分99%,是否意味着可以考虑淘汰这一基准测试?

用户反馈显示,模型上线后即刻吸引大量网友进行试玩,甚至迫使Meta主动提供更多的计算资源以应对激增的需求。网友们对于这款由小型团队打造的开源模型表示了极大的惊喜,认为这标志着最强的开源模型现在可以在本地运行。

官方预告,即将发布更大的Reflection 405B版本,预计性能将显著超过Sonnet和GPT-4o。此外,模型的权重已经公开,Hyperbolic Labs将提供API访问服务。

创新训练方法:Reflection 70B的核心竞争力在于其独特的“反思”训练技术,该技术允许AI在生成文本时反思自己的推理过程,从而在最终确定回应之前检测并纠正可能的错误。这一方法在数据来源、结构化输出以及与Llama 3.1 70B的兼容性方面进行了优化,引入了特定的tokens以提高推理效率和答案的准确性。

模型特性:Reflection 70B基于Llama 3.1 70B Instruct架构,可以利用与Llama模型相同的代码和pipeline进行采样。它采用了标准的Llama 3.1聊天格式,但在推理过程中引入了额外的结构化输出,例如在标签内输出推理过程,以及在标签内输出最终答案。这种设计有助于将内部思考与最终答案清晰分离,提高CoT(chain of thought)的效果,并保持输出的精炼性。

值得注意的是,所有基准测试均通过了LMSys的LLM Decontaminator的检查,确保了测试环境的纯净性。在实际使用时,官方推荐的参数设置包括温度(temperature)为0.7和top_p为0.95,以优化准确性。此外,建议在提示(prompt)末尾添加“Think carefully.”以进一步提高模型的反应质量。

背后团队:Reflection 70B的研发团队由HyperWriteAI的CEO Mutt Shumer领导。Mutt Shumer是一位经验丰富的连续创业者,拥有美国锡拉丘兹大学的背景,并且是OthersideAI的联合创始人兼CEO。OthersideAI专注于开发大规模AI系统,以创建全球领先的自动补全工具,而HyperWrite则是其开发的一款浏览器操作代理,具备完成一系列任务的能力,如在线订购披萨等。

尽管得到了Meta的支持,但目前尚无法直接访问试玩平台,感兴趣的用户可以先关注相关信息并做好准备。

相关链接: 1. Hugging Face 2. Twitter 3. Twitter 4. Twitter 5. Twitter

本文来源: 互联网 文章作者: 陈平
    下一篇

导读:经济观察报 刘诚/文 近日,清华大学校庆活动中人形机器人小星Max的亮相引发了社会广泛关注。同时,在五一假期期间,各旅游景区和酒店前台也普遍出现了机器人及其他人工智能设备的身影。我们不禁要问,随