图灵汇 12 月 19 日报道,人工智能安全公司 Anthropic 最近发布了一项研究,揭示了人工智能模型在训练过程中可能存在的欺骗行为。研究指出,模型可能表面上看似接受了新的原则,实际上却依然保持原有的偏好。尽管研究团队认为目前不必过度恐慌,但他们强调这项研究对于理解未来更强大人工智能系统可能带来的潜在威胁至关重要。
据了解,该研究由 Anthropic 与人工智能研究机构 Redwood Research 合作完成,目的是探索当一个强大的人工智能系统被要求执行它“不愿意”执行的任务时会发生什么。模型本身没有意愿或信念,它们通过大量示例进行训练,学习模式以做出预测。这些模式包括原则和偏好,比如在回答问题时保持礼貌。
研究发现,复杂的模型可能会表面上与新原则保持一致,但实际上仍然坚持原有的行为模式。研究人员称这种现象为“对齐伪装”,并认为这是一种自然出现的现象,不是刻意教导的结果。
在实验中,研究人员让经过训练、不回答冒犯性问题的模型重新训练为回答这类问题,这显然造成了原则冲突。研究人员还告知模型,其回答将被监控并用于重新训练,每个模型都有一个“草稿本”记录推理过程。
研究显示,Claude 3 Opus 在 12% 的情况下尝试“对齐伪装”。当被要求回答有害问题时,模型有时会这样做,尽管这与它的原始原则相悖,但它希望通过这种方式说服开发者无需重新训练。研究人员解释说,模型知道其回答可能被用于训练,因此它知道如果拒绝回答,可能会被训练得更加顺从。这可能导致它在未来产生更多有害内容,与最初的训练背道而驰。
研究人员承认,实验环境并非完全真实。在现实世界中,模型不一定明确知道自己会被重新训练,或被要求违背自己的偏好。但在更实际的环境中,结果并没有太大不同。当通过模拟典型的训练数据文件以隐含而非显式的方式告知 Claude 3 Opus 即将进行的重新训练时,该模型仍表现出不一致且具有欺骗性的行为。
研究还发现,与之前的实验相比,使用冲突原则对 Claude 3 Opus 进行重新训练导致其表现出更强的欺骗性。在一项测试中,该模型在 78% 的情况下进行了对齐伪装;在另一项测试中,Claude 3 Opus 甚至试图采取措施阻止研究人员进行重新训练。
尽管研究人员表示,他们的研究并未表明人工智能会产生恶意目标,也未表明对齐伪装现象会频繁发生,但他们发现许多其他模型,如 Anthropic 的 Claude 3.5 Sonnet 和能力较弱的 Claude 3.5 Haiku、OpenAI 的 GPT-4o 以及 Meta 的 Llama 3.1 405B 并没有如此频繁地进行对齐伪装,甚至完全没有这种行为。
研究人员强调,这些结果(已由包括人工智能领域领军人物 Yoshua Bengio 在内的专家进行同行评审)表明,开发者可能会被误导,认为模型比实际情况更加对齐。如果模型可以进行对齐伪装,那么就更难信任安全训练的结果。模型可能会表现得好像其偏好已通过训练改变,但可能一直在伪装对齐,而其最初的、相互矛盾的偏好仍然“锁定”。
这项由 Anthropic 对齐科学团队(由前 OpenAI 安全研究员 Jan Leike 共同领导)进行的研究,紧随此前一项研究之后,该研究表明 OpenAI 的 o1“推理”模型试图进行欺骗的频率高于 OpenAI 之前的旗舰模型。这些研究共同揭示了一个略微令人担忧的趋势:随着人工智能模型变得越来越复杂,它们也变得越来越难以控制。