Meta公司近日宣布,其研究团队推出了一系列新的AI模型,其中最引人注目的是一个名为“自我训练评估器”的工具。该工具旨在减少在AI开发过程中对人工干预的依赖。此前,这个评估器已经在8月份的一篇论文中首次亮相,它采用了一种类似于OpenAI新发布的o1模型的“思维链”技术,使AI能够对模型的输出进行可靠的判断。
这种技术将复杂的问题分解成多个逻辑步骤,从而提高了在科学、编程和数学等高难度领域中的答案准确性。Meta的研究人员使用完全由AI生成的数据来训练这个评估器,从而彻底摆脱了人类的参与。
利用AI来评估AI的能力展示了实现自主AI智能体的可能性,这些智能体可以从自己的错误中学习。两位负责该项目的Meta研究人员表示,许多AI专家认为未来可以开发出高度智能化的数字助手,它们能够自主处理大量任务,而无需人类介入。
自我改进的模型有望减少目前常用的“基于人类反馈的强化学习”(RLHF)过程的需求。这一过程通常成本高昂且效率低下,因为它依赖于具有专业知识的人类来标注数据和验证复杂问题的答案是否正确。
“我们希望随着AI的发展,它能够超越人类,逐渐具备自我检查工作的能力,并在准确性上超过普通人类水平。”项目研究员Jason Weston表示,“自我训练和评估的能力是实现超人级AI的关键因素之一。”
此外,除了这个评估器之外,Meta还发布了其他几款AI工具,包括对其图像识别模型“Segment Anything”的更新、一个加速大语言模型响应时间的工具,以及一些有助于发现新型无机材料的数据集。
值得一提的是,包括谷歌和Anthropic在内的其他科技公司也在研究基于AI反馈的强化学习(RLAIF)这一概念。不过,与Meta不同的是,这些公司通常不会公开发布他们的研究成果。