正确答案 ≠ 正确推理，CoT 或成大模型推理能力停滞的「罪魁祸首」？

摘要：从 ChatGPT 发布以来，大语言模型就引发了市场和科研领域的巨大的关注，其中绝大部分兴奋都源于大模型的涌现特性：它们似乎能够回忆训练中的信息，编写代码，并且进行逻辑推理。人们期望大模型能借助推理能力在会计、编程等领域拓展专业知识、减少重复性任务，为未来的职

该研究认为，GPT-4o、Claude Opus 等模型的推理能力未明显超越 GPT-4。

编译丨陈为锐

编辑丨陈彩娴

从 ChatGPT 发布以来，大语言模型就引发了市场和科研领域的巨大的关注，其中绝大部分兴奋都源于大模型的涌现特性：它们似乎能够回忆训练中的信息，编写代码，并且进行逻辑推理。人们期望大模型能借助推理能力在会计、编程等领域拓展专业知识、减少重复性任务，为未来的职业生活提供协助。

但从现有的大模型推理能力评估来看，这些基准虽然涵盖自然语言处理、推理、编码和数学能力等多个领域，各类排行榜也聚焦于模型在特定任务上超越当前 SOTA 水平的表现，多关注答案正确性而非推理步骤的准确性。

为此，在一篇名为“Large Language Models’ Reasoning Stalls: An Investigation into the Capabilities of Frontier Models”的论文中，研究人员 Lachlan McGinness、Peter Baumgartner 等提出一项纵向研究，追求更加全面地衡量大模型的推理能力。

研究根据截至 2023 年 12 月和 2024 年 8 月表现最好的大模型在 PRONTOQA 逻辑推理基准上的表现，对大模型的推理能力进行了评估，测试的 SOTA 模型包括 GPT3.5 Turbo、GPT-4 和 GPT-4o、Gemini-Pro、Claude 3 Opus 和 Llama3.1 405B。