本文介绍了一种创新的方法——思考偏好优化(Thought Preference Optimization, TPO),它允许模型根据任务复杂度进行不同时间的思考。该方法通过迭代优化提升思考质量,无需额外的人工标注数据。实验结果表明,TPO模型在AlpacaEval和Arena-Hard基准测试中的性能提升了约4%。
华人学者Tianhao Wu及其团队提出了一种名为思考偏好优化(TPO)的方法,使得模型可以根据任务复杂度进行不同时间的思考。该方法将思维链式提示/推理融入训练中,通过迭代优化提升思考质量,而无需额外的人工标注数据。研究由Meta FAIR、加州大学伯克利分校和纽约大学的研究人员共同完成,相关论文已发表在arXiv.org上。
实验结果显示,TPO模型在AlpacaEval和Arena-Hard基准测试中的性能比基线模型提升了约4%。此外,TPO在推理、数学、营销、健康和一般知识等非推理任务上也表现出显著的优势。
TPO的基本思路是在模型生成最终答案前,先生成一个包含思考过程的中间结果,而这个思考过程对用户不可见,仅作为模型内部的计算过程。通过迭代优化,逐步提升思考质量,最终无需额外的人工标注数据。具体实施过程中,首先使用指令微调的基础语言模型生成包含思考过程和最终答案的输出。然后,通过一个评判模型对这些输出的答案部分进行评分,选出得分最高的和最低的输出,连同它们对应的思考过程,形成偏好对。这些偏好对用于直接偏好优化(DPO)训练,从而逐步优化模型的思考方式。
为了防止回答过于冗长,TPO引入了长度控制机制,通过在评分中加入长度惩罚项来平衡回答的质量和简洁性。实际应用中,模型生成的思考过程会被隐藏,只向用户展示最终答案。
这项研究由来自Meta FAIR、加州大学伯克利分校和纽约大学的研究人员共同完成。论文一作为华人学者Tianhao Wu,目前他是加州大学伯克利分校的博士生,导师是焦剑涛和Kannan Ramchandran。他的研究重点是通过强化学习改善大语言模型的指令遵循和推理能力,目标是构建能够解决复杂任务的大规模模型。此外,他还致力于开发由Agent组成的AI社会,这些Agent可以以模块化的方式连接起来,形成更强大的集体智能。
感兴趣的读者可以查阅完整的论文:https://arxiv.org/abs/2410.10630
希望这些信息对你有所帮助!