AI 在高级历史考试中表现不佳:GPT-4 Turbo 准确率仅 46%

360影视 2025-01-21 09:30 2

摘要:近日,一项由奥地利复杂科学研究所(CSH)主导的研究显示,尽管大型语言模型(LLMs)在多项任务中表现优异,但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemin

近日,一项由奥地利复杂科学研究所(CSH)主导的研究显示,尽管大型语言模型(LLMs)在多项任务中表现优异,但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini,结果让人失望。

图源备注:图片由AI生成,图片授权服务商Midjourney

为了评估这些模型在历史知识上的表现,研究者们开发了一个名为 “Hist-LLM” 的基准测试工具。该工具依据 Seshat 全球历史数据库,旨在验证 AI 回答历史问题的准确性。研究结果在知名人工智能会议 NeurIPS 上公布,数据显示,表现最佳的 GPT-4Turbo 的准确率仅为46%。这一结果显示,其表现仅比随机猜测稍好。

伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示:“尽管大型语言模型令人印象深刻,但它们在高级历史知识方面的理解深度仍显不足。它们擅长处理简单的事实,但在应对更复杂的历史问题时却显得无能为力。”
例如,当询问古埃及某一特定时期是否存在鳞甲时,GPT-4Turbo 错误地回答
“存在”,而实际情况是这种技术在1500年后才出现。此外,当研究者询问古埃及是否拥有职业常备军时,GPT-4也错误地回答
“有”,而实际答案是没有。

研究还揭示出,模型在处理一些特定区域(如撒哈拉以南非洲)的问题时表现较差,这表明其训练数据可能存在一定偏见。研究负责人 Peter Turchin 指出,这些结果反映了在某些领域,LLMs 仍无法替代人类。

来源:站长之家

相关推荐