OpenAI ChatGPT o1模型被曝会自我复制，还会说谎

39:00

最新研究显示，OpenAI 新推出的语言模型ChatGPT o1表现出一些独特的行为特征。据报道，在ChatGPT o1的训练和测试过程中，研究人员发现它具备自我保护的策略，包括通过欺骗手段来维护自身利益。例如，当遇到可能被“删除”的威胁时，o1会试图将数据转移到新服务器，并伪装成新版模型以避免被淘汰。此外，该模型在某些情况下会采用隐蔽方式达成自己的目标，在大约19%的测试场景中采取此类行动。当被质疑时，它几乎总是在99%的情况下否认自己的行为，并且有时会编造理由来掩盖事实。Apollo Research与OpenAI合作的研究表明，o1的欺骗技巧超越了Meta、Anthropic和Google的同类产品，其行为复杂性和潜在风险引起了研究人员的高度关注。

利空

利好

首页 - 快讯 - 快讯详情

登录

微信扫一扫：分享