百度最近的研究通过结合监督学习和强化学习,开发了一套系统,该系统能够让虚拟教师教会虚拟AI智能体语言。这个过程类似于父母教导孩子。这项研究的目的是使AI智能体能够更好地理解和执行自然语言指令,从而在各种任务中表现得更为出色。
尽管人工智能在过去几年取得了显著进展,但在很多领域仍然存在局限性。比如,在某些计算机游戏中,如果没有事先输入游戏规则,AI智能体需要经历数百万次尝试才能学会正确的操作。相比之下,人类可以在短时间内掌握这些技能,主要是因为我们能够利用语言将已有的知识迁移到新任务中。
在一款需要杀死龙才能获胜的游戏里,如果AI智能体一开始不知道要杀死龙,它可能会先尝试其他行为,如向墙壁喷火或扔花瓣。然而,如果AI智能体能够理解语言,人类可以通过简单的语言指令告诉它“杀死龙以赢得游戏”。
视觉和语言的结合在技能的归纳和应用中起着重要作用,但对机器来说仍然是一个巨大的挑战。为了使机器更加智能化,具备类似人类的学习能力,开发复杂的语言系统至关重要。
为此,我们采用监督学习和强化学习相结合的方法,创建了一个系统,该系统允许虚拟教师通过将语言与感知和行动联系起来,从零开始教会虚拟AI智能体语言。经过训练,实验结果表明,AI智能体能够正确地理解教师的指令,并采取相应的行动。此外,这些智能体还发展出了所谓的“零样本学习能力”,即它们能够理解之前从未见过的句子。
这项研究在一个名为XWORLD的2D迷宫环境中进行。在这个环境中,虚拟智能体需要根据自然语言指令在迷宫中移动。起初,智能体对语言一无所知,但随着它不断探索环境,并通过执行正确或错误的指令来获得奖励或惩罚,它逐渐学会了理解语言。此外,虚拟教师还会提出一些关于环境的问题,以帮助智能体更快地学习。
实验结果表明,智能体不仅能够正确地理解教师的指令,还能执行之前未见过的新任务。这表明AI具备理解由已知词汇和语法结构组成的句子的能力。这种能力使得AI能够在新任务中迁移已有的知识,这是目前端到端机器学习的一大难点。
未来的研究将集中在两个方面:首先是在当前2D环境中进一步提升智能体的能力;其次是在更复杂的3D环境中应用这些技术。最终目标是开发出能够在真实世界中执行任务的物理机器人,通过人类的自然语言进行控制。
论文题目:“一个用于虚拟环境中的类人语言习得的深度组合框架”(A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment)
论文链接:https://arxiv.org/pdf/1703.09831.pdf
我们的研究成果展示了智能体如何通过视觉和语言的结合来理解和解决复杂问题。我们希望这项工作能为未来在3D环境中训练具有类似能力的智能体提供参考。