正确答案 ≠ 正确推理,CoT 或成大模型推理能力停滞的「罪魁祸首」?

360影视 欧美动漫 2025-05-28 16:58 5

摘要:从 ChatGPT 发布以来,大语言模型就引发了市场和科研领域的巨大的关注,其中绝大部分兴奋都源于大模型的涌现特性:它们似乎能够回忆训练中的信息,编写代码,并且进行逻辑推理。人们期望大模型能借助推理能力在会计、编程等领域拓展专业知识、减少重复性任务,为未来的职

该研究认为,GPT-4o、Claude Opus 等模型的推理能力未明显超越 GPT-4。

编译丨陈为锐

编辑丨陈彩娴

从 ChatGPT 发布以来,大语言模型就引发了市场和科研领域的巨大的关注,其中绝大部分兴奋都源于大模型的涌现特性:它们似乎能够回忆训练中的信息,编写代码,并且进行逻辑推理。人们期望大模型能借助推理能力在会计、编程等领域拓展专业知识、减少重复性任务,为未来的职业生活提供协助。

但从现有的大模型推理能力评估来看,这些基准虽然涵盖自然语言处理、推理、编码和数学能力等多个领域,各类排行榜也聚焦于模型在特定任务上超越当前 SOTA 水平的表现,多关注答案正确性而非推理步骤的准确性。

为此,在一篇名为“Large Language Models’ Reasoning Stalls: An Investigation into the Capabilities of Frontier Models”的论文中,研究人员 Lachlan McGinness、Peter Baumgartner 等提出一项纵向研究,追求更加全面地衡量大模型的推理能力。

研究根据截至 2023 年 12 月和 2024 年 8 月表现最好的大模型在 PRONTOQA 逻辑推理基准上的表现,对大模型的推理能力进行了评估,测试的 SOTA 模型包括 GPT3.5 Turbo、GPT-4 和 GPT-4o、Gemini-Pro、Claude 3 Opus 和 Llama3.1 405B。

来源:AI科技评论一点号

相关推荐