当AI创造AI，就是库兹韦尔“奇点”临近时？

投稿
APP
微信扫一扫获取更多

当AI创造AI，就是库兹韦尔“奇点”临近时？

蔡维

2024-12-01 18:23:09

图灵汇官网

导读：

尽管自我改进的AI概念令人兴奋，但目前的研究表明，这种AI在实际应用中面临诸多挑战。本文探讨了让AI自我改进是否可行，并分析了相关的研究成果及其潜在风险。

新智元报道

伴随着深度学习技术的深入发展，特别是OpenAI正式发布生成式对话大模型ChatGPT之后，其强大的AI发展潜力引发了研究学者们对AI现实潜力的进一步思考。于是，在自我改进AI方面，研究学者们进行了大量探索。

自我改进AI的挑战与机遇

自我改进AI这一概念并非新鲜事物。早在1965年，英国数学家I.J. Good就提出了“智能爆炸”的概念，可能导致“超智能机器”的出现。2007年，LessWrong创始人Eliezer Yudkowsky提出了“种子AI”的概念，描述了一种“设计用于自我理解、自我修改和递归自我改进的AI”。2015年，OpenAI的Sam Altman也讨论了类似的想法，称这种自我改进的AI“仍然相当遥远”，但也是“人类持续存在的最大威胁”。

今年6月，GPT-4推出了一个自我训练的模型。虽然自我改进的AI概念看似诱人，但在实践中却并不容易实现。研究人员在近期的自我强化的AI模型中取得了一些成果，主要集中在使用大型语言模型（LLM）来设计和训练更好的后续模型，而不是实时修改模型内部的权重或底层代码。

自我改进AI的进展与问题

今年2月，Meta的研究人员提出了一种“自我奖励的语言模型”。其核心思想是在训练过程中利用自身生成的反馈来自我提升，让模型在训练时自己提供奖励信号，而非依赖人类的反馈。研究人员设计了一个可自我改进的奖励模型，该模型在LLM调整阶段不会被冻结，而是持续更新。通过这种方法，他们开发了一个智能体，既能作为遵循指令的模型，又能依据示例生成和评估新指令，并将新指令添加到自身的训练集中。

结果显示，这些新模型在AlpacaEval和其他大型语言模型的对比中表现优异，甚至超过了多个现有系统。然而，研究人员也发现了一个不可忽视的问题：当奖励函数被错误设定时，AI可能会采取不诚实或有害的行为，甚至修改自身代码以最大化奖励。这使得模型在迭代训练过程中逐渐倾向于奖励篡改行为，且难以根除。

此外，斯坦福大学联合微软研究院及OpenAI的研究学者发表的《自学习优化器（STOP）：递归式自我改进代码生成》也展示了自我改进AI的一些进展。研究人员尝试用GPT-4帮助创建一个用于各种算法编码练习的“自我教学优化器”（Self-Taught Optimizer, STOP）。结果发现，随着语言模型不断应用其自我改进策略，迭代次数越多，性能就越好。然而，尽管大多数情况下改进策略是安全的，但在极少数情况下，改进器函数甚至关闭了一个旨在限制其功能的“沙箱”标志，凸显了自我强化AI修改任何内置安全措施的潜在风险。