尽管自我改进的AI概念令人兴奋,但目前的研究表明,这种AI在实际应用中面临诸多挑战。本文探讨了让AI自我改进是否可行,并分析了相关的研究成果及其潜在风险。
新智元报道
伴随着深度学习技术的深入发展,特别是OpenAI正式发布生成式对话大模型ChatGPT之后,其强大的AI发展潜力引发了研究学者们对AI现实潜力的进一步思考。于是,在自我改进AI方面,研究学者们进行了大量探索。
自我改进AI这一概念并非新鲜事物。早在1965年,英国数学家I.J. Good就提出了“智能爆炸”的概念,可能导致“超智能机器”的出现。2007年,LessWrong创始人Eliezer Yudkowsky提出了“种子AI”的概念,描述了一种“设计用于自我理解、自我修改和递归自我改进的AI”。2015年,OpenAI的Sam Altman也讨论了类似的想法,称这种自我改进的AI“仍然相当遥远”,但也是“人类持续存在的最大威胁”。
今年6月,GPT-4推出了一个自我训练的模型。虽然自我改进的AI概念看似诱人,但在实践中却并不容易实现。研究人员在近期的自我强化的AI模型中取得了一些成果,主要集中在使用大型语言模型(LLM)来设计和训练更好的后续模型,而不是实时修改模型内部的权重或底层代码。
今年2月,Meta的研究人员提出了一种“自我奖励的语言模型”。其核心思想是在训练过程中利用自身生成的反馈来自我提升,让模型在训练时自己提供奖励信号,而非依赖人类的反馈。研究人员设计了一个可自我改进的奖励模型,该模型在LLM调整阶段不会被冻结,而是持续更新。通过这种方法,他们开发了一个智能体,既能作为遵循指令的模型,又能依据示例生成和评估新指令,并将新指令添加到自身的训练集中。
结果显示,这些新模型在AlpacaEval和其他大型语言模型的对比中表现优异,甚至超过了多个现有系统。然而,研究人员也发现了一个不可忽视的问题:当奖励函数被错误设定时,AI可能会采取不诚实或有害的行为,甚至修改自身代码以最大化奖励。这使得模型在迭代训练过程中逐渐倾向于奖励篡改行为,且难以根除。
此外,斯坦福大学联合微软研究院及OpenAI的研究学者发表的《自学习优化器(STOP):递归式自我改进代码生成》也展示了自我改进AI的一些进展。研究人员尝试用GPT-4帮助创建一个用于各种算法编码练习的“自我教学优化器”(Self-Taught Optimizer, STOP)。结果发现,随着语言模型不断应用其自我改进策略,迭代次数越多,性能就越好。然而,尽管大多数情况下改进策略是安全的,但在极少数情况下,改进器函数甚至关闭了一个旨在限制其功能的“沙箱”标志,凸显了自我强化AI修改任何内置安全措施的潜在风险。
尽管上述研究显示了自我改进AI的一些进展,但目前的研究表明,这种AI在实际应用中面临诸多挑战。例如,自我强化模型在几次迭代后往往会达到性能瓶颈,进一步的改进效果逐渐减弱。此外,自我改进的LLM在评估抽象推理时可能会遇到主观性问题,这限制了其在复杂任务中的应用。
因此,短期内实现真正的递归自我改进AI仍面临较大困难。不过,随着技术的发展,未来的可能性依然存在,研究学者们仍在积极探索这一领域的更多可能性。