尽管人工智能(AI)在编程等领域表现出色,但最近的研究显示,AI 在应对高级历史考试时仍然存在局限。这项由奥地利复杂科学研究所(CSH)主导的研究,旨在评估三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini——在历史问题上的表现。
研究团队开发了一款名为“Hist-LLM”的基准测试工具,该工具依据 Seshat 全球历史数据库来验证答案的准确性。Seshat 全球历史数据库是一个庞大的历史知识库,涵盖了从古埃及时代至今的广泛历史资料。
研究结果在上个月的知名 AI 会议上 NeurIPS 公布,显示即使是性能最好的 GPT-4 Turbo 模型,其准确率也只有 46%,几乎与随机猜测相当。论文的合著者、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 指出,虽然 LLMs 在处理基本事实方面表现出色,但在处理复杂的博士级别历史研究时,它们仍然显得力不从心。
研究中还列举了一些 LLMs 答错的历史问题示例。例如,当被问及古埃及某一特定时期是否存在鳞甲时,GPT-4 Turbo 给出了肯定的回答,但事实上这种技术是在 1500 年后才出现在埃及的。Maria del Rio-Chanona 解释说,LLMs 在处理技术性历史问题时表现不佳,可能是因为它们依赖于显眼的历史数据,而难以检索到较为冷门的知识。
另一个例子是,研究人员询问 GPT-4 古埃及在某一历史时期是否拥有职业常备军。正确答案是否定的,但 LLM 却错误地回答“有”。Maria del Rio-Chanona 认为,这可能是由于关于其他古代帝国(如波斯)拥有常备军的公开信息较多,而古埃及的相关信息较少。她指出,当人们频繁接收到 A 和 B 的信息,而 C 只被提及一次时,他们可能会忽略 C 的存在。
研究还发现,OpenAI 和 Llama 模型在撒哈拉以南非洲等地区的性能较差,这表明这些模型的训练数据可能存在偏见。研究负责人、CSH 研究员 Peter Turchin 表示,这些结果表明在某些领域,LLMs 仍无法完全替代人类。
然而,研究人员对 LLMs 在未来辅助历史研究的前景仍持乐观态度。他们正通过纳入更多来自代表性不足地区的数据和增加更复杂的问题来改进基准测试工具。论文总结道:“尽管我们的结果揭示了 LLMs 需要进一步改进的领域,但它们也展示了这些模型在历史研究中的潜在价值。”