12月6日,OpenAI宣布了其第二日活动的主题,推出了名为“强化微调”的新技术,旨在帮助开发者和机器学习工程师创建专门针对复杂任务的专家模型。OpenAI首席执行官Sam Altman在X平台上发文表示,这一技术效果显著,是他今年最令人惊喜的成果之一,期待看到大家如何利用这项功能进行创新。
这项技术采用了一种全新的模型定制方法,允许开发者使用高质量的任务集来微调模型,并通过参考答案评估模型的响应,从而提升模型在特定任务中的推理和准确性。OpenAI的研究人员解释说,强化微调不仅仅局限于教会模型如何输出正确的答案,而是让模型在遇到问题时能够自主思考,研究人员可以通过强化学习来加强模型生成正确答案的能力,同时抑制错误答案的倾向。只需少量示例,比如12个例子,模型就能学会用新的方式处理特定领域的推理任务。
据OpenAI的研究人员展示,经过强化微调的o1 mini模型测试通过率比正式版本高出24%,相比未经强化微调的o1 mini,提升了82%。
希望以上改写内容符合您的需求。如果有任何进一步的要求或修改,请随时告知。