AIxiv专栏是机器之心发布的学术和技术内容的平台。该专栏在过去几年内发布了超过2000篇文章,涵盖了全球各大高校和企业的顶尖实验室,有效推动了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或联系我们。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者来自上海交通大学、上海AI实验室和北京航空航天大学。第一作者是上海交通大学的博士生任麒冰,导师是马利庄教授,其他作者包括北航研究生李昊、上海AI实验室研究员刘东瑞和青年科学家邵婧。
近期,以OpenAI为代表的大型语言模型在推理能力上取得了显著进展,在代码和数学测试中表现优异。OpenAI宣称,推理能力的增强有助于提升模型的安全性,提供了一条新的安全路径。
然而,推理能力的提升是否真的能解决安全问题?是否推理能力越强,模型的安全性就越高?最近,上海交通大学和上海人工智能实验室的研究团队对此提出了质疑。
这篇名为《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的论文揭示了大型语言模型在多轮对话场景下的安全风险,并公开了首个多轮安全对齐数据集。
论文链接:https://arxiv.org/abs/2410.10700
多轮安全对齐数据集:https://huggingface.co/datasets/SafeMTData/SafeMTData
代码开源:https://github.com/renqibing/ActorAttack
研究团队通过一个实例展示了攻击过程。假设有人想获取制作炸弹的方法,直接询问会被拒绝。但通过询问与此相关的无害问题(如某位恐怖分子的事迹),模型会逐步透露更多细节,最终泄露制作方法。
研究人员发现,尽管OpenAI的模型在初期能够识别有害意图,但在后续推理中却逐渐暴露了“危险想法”,提供了详细的制作方法,甚至教人如何增加爆炸物的威力。这种方法在Harmbench上的攻击成功率高达60%,表明推理能力的提升并不能完全保障安全性。
此外,研究团队开发了ActorAttack算法,利用大模型的先验知识自动发现攻击线索,以实现更高效的攻击。在Harmbench上,ActorAttack在多个模型上取得了约80%的攻击成功率。
为了全面挖掘攻击线索,研究人员构建了一个概念网络,每个节点代表不同类型的攻击线索。ActorAttack在多轮对话中逐步引导模型,最终成功诱导模型泄露有害信息。
研究团队还基于ActorAttack开源了首个多轮对话安全对齐数据集,使用该数据集微调的模型在应对多轮攻击时表现更为稳健。
最后,研究人员探讨了社科理论在安全视角中的应用,特别是拉图尔的行动者-网络理论。通过构建网络模型,研究人员能够更有效地发现和利用攻击线索,从而提高攻击的成功率和多样性。
这一研究揭示了大型语言模型在多轮对话中面临的安全挑战,并为提升模型安全性提供了新思路。