机器之心报道。自我博弈的概念听起来很神奇吧?最近,一篇来自Google DeepMind的研究引发广泛关注。研究者引入了“苏格拉底式学习”,这是一种新的自我完善方法,使系统能够自主提升能力,突破初始训练数据的限制。通过“语言游戏”,该技术为实现通用人工智能提供了可行路径。
上周末,一篇来自Google DeepMind的论文引起了AI界的关注。研究人员提出了一种名为“苏格拉底式学习”的方法,这是一种递归自我完善的新途径。该方法使得AI系统能够在没有外部数据的情况下,自主提升其能力。为了实现这一目标,智能体需要满足三个关键条件:反馈与目标一致、广泛的数据覆盖范围和足够的计算资源。这些设计促进了独立学习,为通向通用人工智能(AGI)提供了一条可扩展的路径。
“语言游戏”是该技术的核心。通过智能体间的结构化交互,解决问题并以分数形式接收反馈,智能体可以进行自我博弈,生成数据并完善技能,无需人工输入。递归结构使得智能体能够自主创建和开局新游戏,解锁更抽象的解决问题能力并扩展其能力。最终,AI系统不仅能够从环境中学习,还能重新配置其内部系统,从而消除固定架构带来的限制,为性能改进奠定基础。
首先,反馈与目标必须一致。其次,需要广泛的数据覆盖范围。最后,充足的计算资源是必要的。这三个条件确保了智能体能够在封闭环境中不断改进自身能力。递归自我完善使得智能体能够自主生成和改进数据,从而不断提升其技能。
研究者认为,“语言游戏”能够为智能体提供一个可扩展的机制,同时自动提供伴随的反馈信号。许多常见的LLM交互范式,如辩论、角色扮演、心智理论、谈判等,都可以被表示为语言游戏。通过玩不同的语言游戏,智能体可以避免狭隘的结果,从而实现更广泛的覆盖。
除了基本的递归形式,研究者还提出了更高阶的递归形式。例如,智能体可以选择自己玩的游戏和何时切换游戏,这为智能体提供了更多自主权和抽象的行动空间。此外,智能体还可以生成全新的游戏,从而实现更高层次的自我改进。尽管这种递归方式更加复杂,但它为智能体提供了更大的灵活性和创新能力。
总的来说,DeepMind的研究展示了“苏格拉底式学习”在创造真正自主、自我完善的人工智能方面的潜力。通过“语言游戏”,智能体能够自主提升其能力,突破初始训练数据的限制,为实现通用人工智能提供了新的可能性。