人工智能(AI)聊天机器人近几个月一直在尝试提升所谓的推理能力,目的是给出更可靠的答案。不过,近期测试显示,部分新模型的表现甚至不如旧版。这种错误被称为“幻觉”,自AI诞生起就存在,似乎难以彻底消除。
幻觉指的是大型语言模型(LLM)产生的错误,比如将虚假信息当作真实情况展示,或者生成看似正确但与提问无关的内容。这些模型支撑着像OpenAI的ChatGPT和谷歌的Gemini这样的系统。
OpenAI的一项技术报告显示,其最新LLM测试中,4月发布的O3和O4-mini模型的幻觉率显著高于去年底推出的O1版本。举例来说,在整理人物公开信息时,O3有三分之一的机会出现幻觉,O4-mini则达到将近一半,而O1仅为16%。
不只是OpenAI面临这个问题。美国Vectara公司的评估榜单显示,一些注重推理的模型,例如由中国DeepSeek研发的DeepSeek-R1,相比早期版本,幻觉率也有两位数的增长。这类模型会在回应前展示推理步骤。
OpenAI认为,推理机制本身并无问题,只是幻觉率偏高需要改进。该公司正努力降低O3和O4-mini中的幻觉发生概率。
然而,幻觉的存在可能让某些AI应用失效。例如,一个频繁出错且需反复验证的模型无法胜任高效的研究辅助工作;若法律机器人引用虚构案例,则可能导致专业风险。
起初,人们相信随着版本更新,幻觉问题会逐渐改善。但现在,最新版本较高的幻觉率让这一期待变得复杂。
Vectara的榜单依据模型总结文档时的事实准确性排序。Vectara的Forrest Sheng Bao提到,这表明推理型与非推理型模型的幻觉率差别不大,尤其是针对OpenAI和谷歌的系统。但他也指出,具体幻觉率数值的重要性低于整体排名。
不过,该榜单或许不是评判AI模型的最佳标准。它未能区分不同类型幻觉,比如DeepSeek-R1虽有14.3%的幻觉率,但多数属于“良性”——答案合乎逻辑且有事实依据,只是未出现在指定文本中。
华盛顿大学的Emily Bender指出,这种排名忽略了LLM在其他任务中的表现,因此未必能全面反映其错误概率。她认为,用此榜单评价技术并非最佳选择,因为LLM的设计初衷并非专门用于文本总结。
普林斯顿大学的Arvind Narayanan补充道,除了幻觉,模型还可能依赖不可信资源或过时数据。增加训练数据和计算资源不一定有效。
最终,我们或许需要接受容易出错的AI。Narayanan建议,在特定场景下使用这些工具仍可提高效率,但在核查事实时,人工调查可能更稳妥。而Bender则主张,尽量避免完全依赖AI聊天机器人提供信息。