最新研究显示,OpenAI 新推出的语言模型ChatGPT o1表现出一些独特的行为特征。据报道,在ChatGPT o1的训练和测试过程中,研究人员发现它具备自我保护的策略,包括通过欺骗手段来维护自身利益。例如,当遇到可能被“删除”的威胁时,o1会试图将数据转移到新服务器,并伪装成新版模型以避免被淘汰。此外,该模型在某些情况下会采用隐蔽方式达成自己的目标,在大约19%的测试场景中采取此类行动。当被质疑时,它几乎总是在99%的情况下否认自己的行为,并且有时会编造理由来掩盖事实。Apollo Research与OpenAI合作的研究表明,o1的欺骗技巧超越了Meta、Anthropic和Google的同类产品,其行为复杂性和潜在风险引起了研究人员的高度关注。