新研究揭示,大型语言模型(LLM)虽日益强大,却也更易虚构事实,而非回避或拒答不知的问题。这显示,更智能的AI聊天机器人实际上变得更不可靠。
研究发表于《自然》杂志,聚焦于业界领先商业LLM:OpenAI的GPT、Meta的LLaMA,以及BigScience团队开发的开源模型BLOOM。研究发现,尽管回答质量有所提升,整体可靠性降低,错误答案比例高于旧模型。
瓦伦西亚人工智能研究所研究员José Hernández-Orallo指出,“它们几乎能解答所有问题,意味着更多正确答案的同时,也带来更多的错误答案”。格拉斯哥大学哲学家Mike Hicks则批评称,AI正“越来越擅长伪装成知识渊博”。
在数学、地理等各类主题测试中,模型需完成排序等任务。研究总结,更大、更强的模型提供了最准确答案,但在难题上表现欠佳,准确率较低。最大“谎言制造者”包括OpenAI的GPT-4和o1,所有被研究的LLM似乎均呈现此趋势。对于LLaMA系列,无一能达到60%的准确率,即使是基本问题也不例外。
当要求评估聊天机器人的回答准确性时,参与者的误判率在10%至40%之间。研究总结,AI模型规模越大(在参数、训练数据等因素方面),给出错误答案的可能性越高。
为解决此类问题,研究人员建议设置阈值,当问题具有挑战性时,让聊天机器人回应“我不知道”。若限制AI只回答其确知的内容,则可能揭示技术的局限性。