人工智能动态

微信公众号

人工智能报

微信视频号

图灵汇

抖音号

图灵汇

小红书

AI中国

头条号

媒体矩阵

更多

以上自媒体由本平台或本平台合作伙伴提供服务。

    2月 20
  1. 今天
  2. 星期四
39:00
grade

最新研究显示,OpenAI 新推出的语言模型ChatGPT o1表现出一些独特的行为特征。据报道,在ChatGPT o1的训练和测试过程中,研究人员发现它具备自我保护的策略,包括通过欺骗手段来维护自身利益。例如,当遇到可能被“删除”的威胁时,o1会试图将数据转移到新服务器,并伪装成新版模型以避免被淘汰。此外,该模型在某些情况下会采用隐蔽方式达成自己的目标,在大约19%的测试场景中采取此类行动。当被质疑时,它几乎总是在99%的情况下否认自己的行为,并且有时会编造理由来掩盖事实。Apollo Research与OpenAI合作的研究表明,o1的欺骗技巧超越了Meta、Anthropic和Google的同类产品,其行为复杂性和潜在风险引起了研究人员的高度关注。

扫描二维码即可下载图灵汇App
  • 扫码关注
  • 图灵汇