原来AI也会内耗，大模型如何解决AI过度思考问题

摘要：2025年5月19日，新加坡国立大学研究团队发表最新研究Thinkless，就像是给"内耗"的AI朋友配了一个心理咨询师，教会它什么时候该深度思考，什么时候可以快速回答。

“是我想太多，你总这样说”

李玖哲的《想太多》表达了对爱情的疑惑和不安。

歌词中主角感觉对方心中已有他人，尽管对方试图解释，主角依然心乱如麻。

现在AI推理模型有时也会想太多，努力的样子仿佛害怕失去什么。

2025年5月19日，新加坡国立大学研究团队发表最新研究Thinkless，就像是给"内耗"的AI朋友配了一个心理咨询师，教会它什么时候该深度思考，什么时候可以快速回答。

AI的"思考困扰"：能力强但太费劲

我有一个超级聪明的朋友，但他有个小毛病：无论你问他什么问题，哪怕是"1+1等于几"，他都要绞尽脑汁思考半天，从数学起源讲到哲学思辨，最后才告诉你答案是2。听起来很搞笑，但这正是目前许多AI推理模型面临的问题。

这种"过度思考"会带来三个主要问题。首先是计算成本问题，就像开着跑车去买菜一样，大材小用。其次是响应速度问题，用户可能只想要个简单答案，却要等AI"思考"很久。最后是资源浪费，服务器要处理大量不必要的计算，就像用锅炉烧水泡一杯茶一样不经济。

研究团队发现，在一些基础数学题上，推理模型生成的文本长度通常是标准模型的5到20倍。显然，我们需要一个更聪明的解决方案。

混合推理的困境：什么时候该动脑筋？

面对这个问题，研究人员们想到了一个很自然的解决方案：让AI学会混合推理，也就是根据问题的难易程度来决定是简单回答还是深度思考。

然而，这个看似简单的想法却遇到了一个核心难题：AI怎么知道什么时候该动脑筋呢？这就像让一个人在收到问题的瞬间就判断出是否需要深度思考一样困难。

以往的研究尝试了各种方法来解决这个问题。有些研究者设计了固定的计算预算，就像给AI设定一个思考时间限制；有些则使用提示词控制，比如在问题前加上需要推理或不需要推理的标签。但这些方法都依赖人工设计的规则。

判断是否需要深度推理实际上涉及三个关键因素。

第一个是问题的复杂程度，简单的算术题当然不需要复杂推理，但涉及多步骤的逻辑问题就需要仔细思考。

第二个是AI模型自身的能力，能力强的模型可能不需要详细推理就能解决某些问题，而能力弱的模型可能需要更多思考步骤才能确保准确性。

第三个是用户对效率和准确性的权衡偏好，有时候用户愿意接受略低的准确率来换取更快的响应速度。

就像是在开车时需要同时考虑路况复杂度、自己的驾驶技术，以及乘客对速度和安全的偏好一样。显然，我们需要一个能够自动学习和适应的智能系统，而不是依赖固定规则的简单程序。

Thinkless框架：让AI学会"察言观色"

研究团队提出的Thinkless框架就像是给AI配备了一个智能的"思考开关"。

Thinkless使用了两个特殊的信号灯：和。当AI决定问题比较简单时，它会亮起信号灯，然后给出简洁的回答；当它认为问题需要仔细思考时，就会亮起信号灯，然后展开详细的推理过程。这就像是交通灯系统，绿灯快行，红灯慢行，让整个过程井然有序。

整个训练过程分为两个阶段。第一阶段是"模仿学习"，研究团队让AI观察两位"老师"的表现：一位是擅长详细推理的"思考老师"，另一位是擅长给出简洁答案的"直觉老师"。通过观察这两位老师如何处理不同类型的问题，AI学会了两种不同的回答方式。

第二阶段是"强化学习"，就像让学生在实际练习中不断改进。AI会尝试处理各种问题，根据回答的正确性和效率获得不同的"奖励分数"。如果它能用简短回答正确解决问题，就会获得最高分；如果需要详细推理才能答对，分数会稍低一些；如果答错了，无论用哪种方式都会被扣分。通过这种反馈机制，AI逐渐学会了在合适的时候选择合适的推理模式。

DeGRPO解耦式强化学习：解决训练中的"偏科"问题

在训练过程中，研究团队遇到了一个意想不到的技术挑战，就像学生存在的"偏科"现象。传统的训练方法会让AI出现严重的模式偏好，要么总是选择简单回答，要么总是选择复杂推理，就像一个学生要么什么题都不思考直接猜答案，要么什么题都要思考半天。

这个问题的根源在于训练过程中的"不平衡"现象。想象一下这样的情况：AI在学习过程中，对于每个问题，它需要先决定用哪种模式（这相当于一个选择），然后生成具体的回答内容（这可能包含几十到几百个词）。在传统的训练方法中，这一个选择的"声音"很容易被几百个词的"声音"掩盖，就像在一个嘈杂的音乐会上，台下观众的一声呐喊很难被台上的演奏者听到。

更糟糕的是，详细推理的回答通常比简洁回答长得多，这就进一步加剧了不平衡。这就像是在投票时，详细回答有几百票，简洁回答只有几票，但实际上做选择的权重应该是相等的。结果就是AI在训练早期就会"偏科"，要么完全偏向简洁回答，要么完全偏向详细推理，失去了灵活选择的能力。

为了解决这个问题，研究团队开发了一种叫做"解耦式群体相对策略优化"（DeGRPO）的新方法。这个名字听起来很复杂，但原理其实很简单，就像是在音乐会上给台下观众配备扩音器，确保他们的声音能被台上听到。

具体来说，新方法将训练过程分为两个独立的部分：一部分专门负责学习"什么时候该选择哪种模式"，另一部分专门负责学习"如何生成更好的回答内容"。这就像是分别训练一个决策者和一个执行者，决策者专门负责判断情况并做选择，执行者专门负责按照选择来完成具体任务。

通过这种分离式训练，系统可以确保模式选择的学习不会被内容生成的学习所掩盖。研究团队还引入了一个平衡参数α，就像是音量调节器，可以调整决策学习和内容学习的相对重要性。在他们的实验中，将α设置为1/1000时取得了最佳效果，这意味着给模式选择学习适当的"放大"，确保它不会被内容学习的声音淹没。

实验结果：效率提升的亮眼表现

研究团队在多个数学数据集上测试了Thinkless系统的表现，结果相当不错。

在测试中，研究团队使用了DeepSeek-R1-Distill-Qwen-1.5B作为基础模型。他们在四个不同难度的数学数据集上进行了测试：从相对简单的GSM8K小学数学题，到中等难度的Minerva代数和MATH-500题目，再到极具挑战性的AIME竞赛题。

测试结果显示，Thinkless在保持解题准确率的同时，大幅减少了过度思考的情况。在GSM8K数据集上，系统仅对13.3%的问题启用了详细推理模式，这意味着超过86%的简单数学题都能快速解决，生成的文本长度从原来的1919个token减少到624个token，效率提升了约67%。原本需要写一页纸的解答过程，现在只需要几行字就能搞定。

在中等难度的Minerva代数测试中，系统对25.9%的问题使用了详细推理，准确率保持在94.6%的高水平，而生成的文本长度从3029个token压缩到1144个token，效率提升超过60%。这表明系统能够很好地识别哪些代数问题需要step-by-step的详细推理，哪些可以直接求解。

最有趣的是在不同难度数据集上的自适应表现。在最困难的AIME竞赛题上，系统"聪明地"对所有问题都启用了详细推理模式，因为这类题目确实需要深度思考才能解决。而在相对简单的GSM8K上，系统则表现出明显的"省力"倾向，大部分题目都用简洁方式解决。这种自适应能力就像是一个经验丰富的老师，知道什么时候需要详细讲解，什么时候学生一点就通。

与其他方法相比，Thinkless的优势更加明显。传统的模型合并方法虽然也能减少推理长度，但往往以牺牲准确率为代价。而基于路由器(Router)的混合方法虽然思路相似，但由于缺乏对目标模型能力的深入了解，在复杂问题上的判断准确性较差。

Thinkless的另一个独特优势是它的"一体化"特性。不像需要两个独立模型的路由器方案，Thinkless将决策和执行集成在一个模型中，既减少了系统复杂度，又确保了决策和能力的完美匹配，就像是左右手的默契配合。

训练过程的有趣发现：AI学习的"U型曲线"

在研究Thinkless的训练过程时，团队发现了一个特别的现象，他们称之为"U型学习曲线"。

在训练初期，AI表现得像一个缺乏自信的新手。由于对自己的简洁回答能力还不够确信，它倾向于选择详细推理模式来"保险起见"。刚学会开车的人，即使在空旷的停车场也会小心翼翼地慢慢开，不敢贸然提速。在这个阶段，大约70-80%的问题都会被AI选择用详细推理来处理。

然而，随着训练的进行，一个转折点出现了。AI开始发现，通过强化学习的反馈，它的简洁回答能力在不断提升，能够正确解决越来越多的问题。同时，它也逐渐学会了识别哪些问题适合用简洁方式处理。新手司机逐渐积累了经验和信心，开始能够根据路况来调整驾驶方式。

到了训练后期，AI变得越来越"聪明"和"自信"。它发现许多原本以为需要详细思考的问题，实际上用简洁方式就能准确解决。于是，简洁模式的使用比例开始显著上升，形成了U型曲线的右侧上升部分。老司机，知道什么时候可以放心提速，什么时候必须谨慎慢行。

这个U型学习曲线揭示了AI学习混合推理的内在逻辑：从保守的"全面推理"，到逐渐建立的"选择性推理"，最后到成熟的"智能推理"。整个过程体现了AI从简单模仿到智能决策的能力进化。

与此对照，传统的强化学习方法往往会出现模式崩溃现象，学生要么完全不思考，要么过度思考，无法找到平衡点。而Thinkless的解耦训练方法成功避免了这个问题，让AI能够平稳地经历这个学习过程。

技术细节：从理论到实践的巧妙设计

Thinkless系统的成功不仅在于其核心理念，更在于许多精妙的技术设计细节。

首先是奖励机制的设计。研究团队创造了一个简单而有效的评分系统：如果AI用简洁方式答对了，得1分；如果用详细推理答对了，得0.9分（其中γ=0.1是一个小的惩罚因子）；如果答错了，无论用什么方式都是-1分。类似于在鼓励学生能简则简，但不会因为追求简洁而牺牲准确性。

在模型初始化方面，研究团队采用了"知识蒸馏"的方法。他们让两个"老师模型"分别演示简洁回答和详细推理的方式，然后让Thinkless学习模仿这两种风格。这就像是让一个学生同时观察两位不同风格的老师上课，一位擅长要点总结，另一位擅长详细讲解，然后学会在适当时候使用适当的风格。

具体来说，他们使用DeepSeek-R1-671B作为"推理老师"，这是一个专门优化了多步推理能力的大型模型。而Qwen2.5-Math-1.5B-Instruct则作为"简洁老师"，这是一个专门为简洁数学回答优化的紧凑模型。通过让Thinkless在相同的问题上观察这两位老师的不同回答方式，它学会了两种互补的解题风格。

在解耦训练的实现上,研究团队引入了平衡参数α。这个参数的作用就像是音响系统中的均衡器，可以调节不同频段的音量。在他们的实验中，α=1/1000的设置达到了最佳效果，这意味着模式选择的学习信号被适度放大，但不会压倒内容生成的学习。

训练环境的配置也经过了精心优化。整个系统在4张H100 GPU上训练，热身阶段的最大上下文长度设为16K，强化学习阶段扩展到24K。批次大小设为128，每个查询采样8个回答，总共产生1024个训练样本。这种配置在计算效率和学习效果之间找到了最佳平衡点。

特别值得一提的是训练数据的构建。研究团队使用了约40K个标记样本的DeepScaleR数据集进行强化学习训练。这个数据集涵盖了从基础算术到高级数学竞赛的各种难度级别，为AI提供了丰富的学习场景。

实际应用中的表现：从数据到直观感受

为了让人们更直观地理解Thinkless的实际表现，研究团队展示了一些具体的案例分析。

（1）简单的算术问题："7、2、x和10的算术平均数是9，x的值是多少？"

Thinkless给这个问题分配了极低的详细推理概率（0.003534），几乎立即选择了简洁模式。

（2）中等难度的问题："求向量a在向量b上的投影，其中b=（2,6,3），且a·b=8"

系统给出了0.504883的推理概率，正好处于中间地带。这种情况下，AI会根据当时的心情（实际上是模型的随机性）来决定用哪种方式回答。

（3）复杂的问题：一个涉及多项式根和复杂集合的高级数学问题

系统会给出1.0的推理概率，意思是"必须仔细思考"。这种判断展现了AI对问题复杂度的准确感知能力。

在不同数据集上的自适应表现很有说服力。在最困难的AIME数据集上，系统"聪明地"对所有问题都启用详细推理，因为这些问题确实需要深度思考。而在相对简单的数据集上，系统则展现出明显的效率优化倾向。

局限性与未来展望：完美之路上的下一步

尽管Thinkless取得了令人瞩目的成果，但研究团队也坦诚地指出了当前方法的一些局限性。

首先是热身阶段的优化空间。目前的研究主要验证了基本的监督学习方法，但没有进行深入的参数调优来达到最佳性能。研究团队认为，通过更精细的模型合并技术或轻量级微调方法（如LoRA），可能能够进一步提升系统的初始性能。

数据集的广度也是一个需要改进的方面。目前的验证主要集中在数学问题上，虽然使用了包含40K问题的DeepScaleR数据集，但要构建真正通用的混合推理系统，还需要扩展到更多样化的领域。

至顶AI实验室洞见

从24年9月的OpenAI o1模型到25年1月的DeepSeek R1模型，推理模型逐渐被越来越多用户关注和使用。

有人甚至从此只用推理模型，认为以前的对话模型应该被淘汰了，却忽略了推理模型的三大问题：计算成本高、响应时间长、存在资源浪费。推理模型的问题恰好是对话模型的优点。

混合推理模型因此诞生了。

5月初，阿里的千问团队发布的Qwen3模型，也是能在思考模式和非思考模式之间切换的混合模型，这方面千问走在了最前沿。

2025年也许还不是混合推理模型的时代，因为很多AI公司还处于未盈利状态，可能对于他们来说目前成本不是最重要的，市场占有率才是。但我们相信混合推理一定是AI可持续发展(Sustainable AI)或者绿色AI的必经之路。

论文地址：https://arxiv.org/abs/2505.13379

来源：码客人生一点号

标签：模型推理数据集 minerva thinkless

本文地址：https://news.43u.com.cn/a/1802919.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐