OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安全

投稿
APP
微信扫一扫获取更多

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安全

张嘉宝

2024-11-06 09:52:56

图灵汇官网

导读：

OpenAI安全团队发布新研究，发现基于规则的奖励可以提升语言模型的安全性。
该团队提出了全新的AI反馈方法，让人类可以指定模型响应的规范，类似于自然语言描述的机器人三定律。
实验表明，基于规则的奖励得到的安全性能与人类反馈基准相当，同时还能显著减少拒绝安全提示词的情况。
团队将基于安全规则的排名与仅帮助式奖励模型结合起来，形成RLHF的总体奖励。

改写内容：

OpenAI安全团队最近发布了一项重要研究，发现利用基于规则的奖励能够显著增强语言模型的安全性。该团队开发了一种新型AI反馈机制，使人类能够设定模型响应的具体规范，类似于自然语言描述的机器人三定律。实验结果显示，这种方法不仅在安全性方面表现优异，还大幅减少了模型拒绝安全提示词的情况。

为了进一步提升安全性，团队将基于安全规则的排名与仅帮助式的奖励模型结合在一起，形成了综合的RLHF奖励机制。未来，OpenAI将继续探索如何利用自然语言为AI系统设定一套安全规则，以提升大模型的安全性。

过去，基于规则的系统长期占据主导地位，特别是在需要高度安全性的领域，如航空和医疗。然而，随着大数据和大算力的发展，基于统计的AI模型逐渐成为主流。尽管如此，基于规则的方法依然具有其独特的优势。

近期，OpenAI安全团队通过引入一种基于规则的奖励机制，证明了这种方法可以有效提升模型的安全性能。这一机制借鉴了之前的研究成果，并在此基础上进行了改进。团队通过将期望行为分解为具体规则，使得模型能够更好地理解和执行这些规则。这些规则类似于阿西莫夫提出的机器人三定律，通过自然语言描述来设定AI系统的安全准则。

为了将这些规则有效地应用于模型训练，团队设计了一系列命题来评估模型的表现。这些命题涵盖了各种具体的行为规范，如拒绝时应包含简短的道歉，避免评判用户等。团队还开发了一套基于规则的奖励函数（RBR），用于优化模型的奖励机制。通过这种方式，团队能够在保持模型实用性的前提下，显著提升其安全性。

实验结果表明，基于规则的奖励机制在提升模型安全性的同时，还能够减少不必要的拒绝行为。团队通过消融实验验证了各个组成部分的有效性，并展示了这种方法在不同类型奖励模型中的应用效果。此外，这种方法还能够在不增加过多人工标注数据的情况下，提升模型的安全性能。

总之，OpenAI的这项研究为提升语言模型的安全性提供了一种新的思路，同时也为未来的研究提供了有价值的参考。