微软研究院最近发布了一款名为Phi-4的小参数模型。作为Phi系列的第五代产品,Phi-4继续沿用了小参数的设计理念,拥有140亿参数。
尽管参数量较小,但Phi-4在多项基准测试中表现出色。在GPQA研究生水平测试中,Phi-4获得了56.1分,超过了GPT-4o。在MATH数学基准测试中,Phi-4得分高达80.4,同样超越了GPT-4o和开源模型Qwen 2.5 -14B及Llama-3.3-70B。此外,在美国数学竞赛AMC中,Phi-4更是取得了91.8分的优异成绩,领先于GeminiPro1.5、GPT-4o、Claude 3.5 Sonnet和Qwen 2.5等众多知名模型。
这表明,即使参数量不大,高质量的数据和创新的训练方法也能使模型具备强大的性能。相比大型模型,Phi-4在部署、应用和推理方面对计算资源的需求大幅减少。
Phi-4之所以能在小参数的情况下取得出色表现,关键在于其使用了高质量的合成训练数据。传统的大型模型通常依赖从网络抓取或公开数据库获取的真实文本作为训练数据,但这种方法容易受到噪声和偏见的影响。
相比之下,Phi-4采用了多种合成方法,如种子策划、多Agent提示、自我修订工作流、重写和增强以及指令反转等,有效解决了传统无监督数据集的不足之处。
种子策划是合成数据生成的起点。Phi-4从多个领域提取高质量的数据种子,为合成数据生成打下了坚实的基础。这些种子包括从网页、书籍和代码库中提取的内容,展示出高复杂性、深度推理和教育价值。为了确保质量,采用了两阶段过滤过程:首先识别具有强教育潜力的页面,然后将选定的页面分割成段落,并对每个段落进行事实和推理内容的评分。
多Agent提示允许不同智能体之间进行交互对话,创造出更贴近实际应用场景的交流场景;自我修订工作流鼓励模型参与自身编辑,提高输出内容的质量和一致性。指令反转则通过改变任务描述的方式,增加模型处理不同类型问题的能力,进一步提升其灵活性和适应性。
总体上,共生成了50种不同类型的合成数据集,涵盖了广泛的主题和技能,总计约400B未加权的高质量token数据。
为了确保Phi-4在各种任务中表现出色,研究人员采用了一系列创新的训练方法,并根据实际需求调整数据比例。特别是为了增强长上下文理解能力,Phi-4增加了rope位置编码的基础频率至25万次,并相应地降低了最大学习率,以更好地适应较长的文本序列。这种做法显著提升了模型对复杂结构化信息的理解能力,使其在处理需要综合分析多个段落甚至整篇文章的问题时表现得游刃有余。
Phi-4还特别注意了不同类型数据之间的平衡,避免某类数据过多导致其他方面性能下降的情况发生。
在后训练过程中,研究团队采用了两种形式的DPO数据对模型进行了强化训练。第一种是基于人工标注的SFT数据,即由专家精心挑选并标记好的问答对;第二种则是自动构建的DPO对,通过搜索重要转折点,将原始对话片段拆分成多个选项,并让模型从中选择最优解。通过结合这两种方式,Phi-4不仅学会了如何产生更符合预期的回答,还能在不同情境下灵活调整语气和风格,提供更加个性化的交互体验。
此外,Phi-4还引入了一些创新性的后训练方法,以增强其在特定领域内的表现。例如,在STEM领域问题解答方面,Phi-4利用了一个名为Math-Shepherd的工具来进行验证和强化学习。Math-Shepherd可以自动检查模型生成的答案是否正确,并在必要时提供额外指导,帮助模型逐步掌握正确的解题思路。这种方法有效地解决了传统无监督数据集中常见的逻辑不严密等问题,使得Phi-4在数学竞赛类题目上的准确率达到80.4%,远超其他同类产品。
此外,针对编程代码评估任务,Phi-4也采取了类似的方法,通过对大量开源项目中的代码片段进行分析和总结,提升了其在该领域的执行效率和准确性。
值得一提的是,微软AI副总裁、Phi系列模型的重要推动者之一Sébastien Bubeck已离开微软加入OpenAI。