标题:新秀创业团队以创新技术夺下开源大模型王座
摘要:一场科技界的惊喜风暴来袭,一家小型创业团队凭借其独创的训练技术,成功将开源大模型的王冠戴在自家头上,这一消息瞬间在全球科技圈内引发轰动。
新模型Reflection 70B,以其革命性的“反思”训练方法,赋予AI在推理过程中自我纠错和自我觉察的能力。这一创新使得AI不仅能在常见的数理测试中纠正自身的错误判断,还能在面对复杂问题时,通过自我反思,避免陷入认知偏误。
在官方的严格评测中,Reflection 70B全面超越了包括Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro在内的顶级开源模型,特别是在数学基准GSM8K上的表现尤为突出,准确率高达99.2%。这一成就不仅震撼了科技界,更是让OpenAI科学家、德州扑克AI之父Noam Brown激动不已,直呼GSM8K得分99%,是否意味着可以考虑淘汰这一基准测试?
用户反馈显示,模型上线后即刻吸引大量网友进行试玩,甚至迫使Meta主动提供更多的计算资源以应对激增的需求。网友们对于这款由小型团队打造的开源模型表示了极大的惊喜,认为这标志着最强的开源模型现在可以在本地运行。
官方预告,即将发布更大的Reflection 405B版本,预计性能将显著超过Sonnet和GPT-4o。此外,模型的权重已经公开,Hyperbolic Labs将提供API访问服务。
创新训练方法:Reflection 70B的核心竞争力在于其独特的“反思”训练技术,该技术允许AI在生成文本时反思自己的推理过程,从而在最终确定回应之前检测并纠正可能的错误。这一方法在数据来源、结构化输出以及与Llama 3.1 70B的兼容性方面进行了优化,引入了特定的tokens以提高推理效率和答案的准确性。
模型特性:Reflection 70B基于Llama 3.1 70B Instruct架构,可以利用与Llama模型相同的代码和pipeline进行采样。它采用了标准的Llama 3.1聊天格式,但在推理过程中引入了额外的结构化输出,例如在
值得注意的是,所有基准测试均通过了LMSys的LLM Decontaminator的检查,确保了测试环境的纯净性。在实际使用时,官方推荐的参数设置包括温度(temperature)为0.7和top_p为0.95,以优化准确性。此外,建议在提示(prompt)末尾添加“Think carefully.”以进一步提高模型的反应质量。
背后团队:Reflection 70B的研发团队由HyperWriteAI的CEO Mutt Shumer领导。Mutt Shumer是一位经验丰富的连续创业者,拥有美国锡拉丘兹大学的背景,并且是OthersideAI的联合创始人兼CEO。OthersideAI专注于开发大规模AI系统,以创建全球领先的自动补全工具,而HyperWrite则是其开发的一款浏览器操作代理,具备完成一系列任务的能力,如在线订购披萨等。
尽管得到了Meta的支持,但目前尚无法直接访问试玩平台,感兴趣的用户可以先关注相关信息并做好准备。
相关链接: 1. Hugging Face 2. Twitter 3. Twitter 4. Twitter 5. Twitter