OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全

图灵汇官网

导读:

  • OpenAI安全团队发布新研究,发现基于规则的奖励可以提升语言模型的安全性。
  • 该团队提出了全新的AI反馈方法,让人类可以指定模型响应的规范,类似于自然语言描述的机器人三定律。
  • 实验表明,基于规则的奖励得到的安全性能与人类反馈基准相当,同时还能显著减少拒绝安全提示词的情况。
  • 团队将基于安全规则的排名与仅帮助式奖励模型结合起来,形成RLHF的总体奖励。

改写内容:

OpenAI安全团队最近发布了一项重要研究,发现利用基于规则的奖励能够显著增强语言模型的安全性。该团队开发了一种新型AI反馈机制,使人类能够设定模型响应的具体规范,类似于自然语言描述的机器人三定律。实验结果显示,这种方法不仅在安全性方面表现优异,还大幅减少了模型拒绝安全提示词的情况。

为了进一步提升安全性,团队将基于安全规则的排名与仅帮助式的奖励模型结合在一起,形成了综合的RLHF奖励机制。未来,OpenAI将继续探索如何利用自然语言为AI系统设定一套安全规则,以提升大模型的安全性。

过去,基于规则的系统长期占据主导地位,特别是在需要高度安全性的领域,如航空和医疗。然而,随着大数据和大算力的发展,基于统计的AI模型逐渐成为主流。尽管如此,基于规则的方法依然具有其独特的优势。

近期,OpenAI安全团队通过引入一种基于规则的奖励机制,证明了这种方法可以有效提升模型的安全性能。这一机制借鉴了之前的研究成果,并在此基础上进行了改进。团队通过将期望行为分解为具体规则,使得模型能够更好地理解和执行这些规则。这些规则类似于阿西莫夫提出的机器人三定律,通过自然语言描述来设定AI系统的安全准则。

为了将这些规则有效地应用于模型训练,团队设计了一系列命题来评估模型的表现。这些命题涵盖了各种具体的行为规范,如拒绝时应包含简短的道歉,避免评判用户等。团队还开发了一套基于规则的奖励函数(RBR),用于优化模型的奖励机制。通过这种方式,团队能够在保持模型实用性的前提下,显著提升其安全性。

实验结果表明,基于规则的奖励机制在提升模型安全性的同时,还能够减少不必要的拒绝行为。团队通过消融实验验证了各个组成部分的有效性,并展示了这种方法在不同类型奖励模型中的应用效果。此外,这种方法还能够在不增加过多人工标注数据的情况下,提升模型的安全性能。

总之,OpenAI的这项研究为提升语言模型的安全性提供了一种新的思路,同时也为未来的研究提供了有价值的参考。

本文来源: 互联网 文章作者: 张嘉宝
    下一篇

导读:划重点01人工智能在古典学领域的应用越来越广泛,如文本数字化、文字识别、残缺文本复原等。02DeepL等AI工具在翻译中文术语表、古代语言材料等方面取得了显著成果。03然而,AI在古典语言教学和