摘要:CMU 团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是,要求短推理时,甚至击败了GPT-4o——用的还是相同的token预算!
【导读】 CMU 团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是,要求短推理时,甚至击败了GPT-4o——用的还是相同的token预算!
一个只有15亿参数的小模型,竟然能在相同token预算下挑战GPT-4o的性能!
最近,CMU团队推出了「长度控制策略优化」(LCPO),它让AI的推理过程不再是「一刀切」,而是像个聪明管家,能根据任务需求灵活调整「思考」长度。
无论是啃下复杂的数学难题,还是快速解答简单问题,这个名叫L1的模型都游刃有余。
更惊艳的是,它还能把长推理的智慧「浓缩」到短答案中,使模型的效率和准确性双双飙升。问题背景
当前的推理模型有一个关键局限性:它们的推理长度无法控制,这使得无法分配测试时计算预算以达到目标性能水平。这导致了三大问题:
1 计算浪费:在某些情况下,生成的序列可能长达数万个标记,而在较短的推理已经足够的情况下,这会导致计算资源的浪费。
2 过早停止:如果没有长度控制,模型可能会在复杂问题上过早停止,未能分配足够的推理步骤。
3 未探索的权衡:目前无法根据目标性能水平校准推理计算预算,导致潜在效率提升未被探索。
在新研究中,在提示中加入一个目标token长度来解决这个问题。 简单来说,给定一个输入提示和一个目标长度,模型需要生成一个回答,让它的长度尽量接近目标长度,同时还得保证答案正确。 这种方式把准确性和输出长度直接挂钩,确保生成的思维链符合用户指定的限制。 此前的方法,试图通过强制模型在生成过短或过长token时生成特殊token(例如「等待」、「最终答案」),实现长度控制。 然而,这种僵硬的、人为设计的策略与基础模型相比,性能显著下降(下图1)。解决方案:长度控制策略优化
研究团队从一个预训练的推理模型LLM开始,用一个数据集D(包含N个样本),每个样本只有输入提示和最终答案(没有中间的推理过程)。 为了实现长度控制,给每个提示加上一个目标长度的指令。这样就得到了一个新的数据集Dnew,包含了带长度指令的提示和对应的答案。 接下来,用强化学习的目标来更新模型LLM。在实验中,研究人员选择了GRPO方法。 奖励函数包括两部分:正确性奖励rc和长度惩罚rlength。 这个奖励函数有两个作用:一是鼓励模型给出正确答案,同时在要求短输出时倾向于简洁的推理过程;二是即使正确答案可以用更少的token生成,它也会持续推动模型尽量匹配指定的目标长度。 根据目标长度的指令和训练目标不同,有两类方法:1 LCPO-Exact(或L1-Exact):要求生成的推理过程必须严格等于目标长度;示例提示为:「Think for exactly 512 token」
2 LCPO-Max(或L1-Max):要求生成的输出不得超过目标长度,但可在该范围内灵活调整,以适应不同问题的难度。示例提示为:「Think for maximum 1024 token」
精准模式:L1-Exact
长度控制策略优化(LCPO)是一种简单RL方法,允许推理型语言模型仅使用提示(prompt),自适应地控制生成文本的长度。 在推理阶段,输出长度通过在每个测试提示后统一加上一个固定的目标长度(或者一组长度)来控制。 适用于下列场景:1 基准测试(Benchmarking):确保不同模型在相同token预算下进行公平对比。
2 精确预算控制(Exact Token Budgeting):在受限资源环境下,严格控制生成内容的长度。
1 问题定义:给定输入提示词x和目标长度n_goal,生成一个长度n_y尽可能接近且答案正确的响应y。目标是最小化 |n_goal-n_y|的同时确保输出正确。 2 提示词增强(Prompt Augmentation):在每个提示词中增加目标长度指令: 3 强化学习(Reinforcement Learning):通过奖励函数进行优化,在准确性和长度匹配之间保持平衡: 其中, α用于平衡答案正确性和长度匹配的权重。最大长度限制模式:L1-Max
最大长度限制模式,L-Max适用下列场景:计算资源受限场景:确保最大token消耗受控,防止超出计算预算。
适应任务难度:允许较简单任务使用更少token,而复杂任务可充分利用预算。
为了训练L1-Max,在L1-Exact的基础上继续微调,用的是同一个强化学习框架,但改进了奖励函数: (1)逐步惩罚超过目标长度的输出,而不是直接硬性截断(这在GRPO目标中需要保证梯度传播); (2)鼓励模型在不牺牲正确性的情况下,尽量少用token。 此外,L1-Max用双重目标训练:如果提示要求精确长度,就用长度控制策略优化;否则默认用最大长度限制模式。 具体而言,使用带软约束的奖励函数进行优化,以平衡准确性和token预算: 其中参数α控制减少token使用的激励程度;δ确保轻微超出预算但正确的答案优于错误答案。结果与分析
L1表现远超其他长度控制模型,同时保持强劲性能。
下图2比较了L1-Exact和L1-Max与其它基准模型在不同生成长度下的表现。L1的两个版本在所有token预算下都表现更好,同时还能精确控制长度。
相比专门为长度控制设计的S1方法,L1提升显著,在512和1024 token预算下,相对性能提升100-150%,绝对性能提升20-25%。L1能很好泛化到非训练领域(OOD)任务
研究团队测试了L1在训练分布外的领域控制长度的能力。 非训练领域数据集分两类:一是通用推理数据集GPQA和LSAT,没明确用于L1训练,但可能在DeepSeek-R1-1.5B的训练范围内;二是MMLU,可能完全不在DeepSeek-R1-1.5B的训练分布内。 下图3显示L1在新领域表现稳健:在非训练通用推理数据集上,性能随token预算正向增长,尽管有长度约束,也接近或匹配Agentica-4K的表现。 在GPQA和LSAT上,他们看到和主数据集一样的线性性能增长趋势,L1在相似token预算下能达到Agentica-4K的表现。 考虑到L1没针对这些任务训练,这种泛化能力很惊人。在MMLU上,线性关系没那么明显(R²=0.66),可能是因为这些知识类问题从长推理中获益较少。L1能高精度遵循长度约束
研究团队在多个数学推理数据集上量化评估了L1遵循长度约束的能力。 下图4显示,他们的模型在所有token预算(512、1024、2048、3600)下都能保持一致控制,输出长度通常很接近要求长度。长思维链模型暗藏短思维链实力
鉴于L1在低token预算下表现强劲,研究团队专门比较了它与基础非推理模型(Qwen-2.5-1.5B-Instruct)和更大的非推理模型(GPT-4o和Llama-3.3-70B)在相同生成长度下的表现。 下表1显示,L1在所有数据集上都持续超越或达到这些模型,尽管token预算相同。 平均来看,L1比非推理模型高5%,甚至比GPT-4o平均高2%。据研究者所知,这是首次证明一个15亿参数模型能在相同生成长度下超过GPT-4o这样的前沿模型。 总体来说,这表明通过适当的强化学习训练,长思维链模型能灵活转为短思维链模型,同时在相同生成长度下显著超越基础模型。L1在不同token预算下采用不同推理策略
为了了解L1如何根据长度约束调整推理方法,研究团队分析了不同长度输出中推理相关词语的出现频率。 具体来说,他们计算了512 token输出和4096 token输出中最常见推理词的出现率,观察模型在不同长度约束下的策略变化。 下图6把这些关键词分成四种推理模式:「自我纠正与验证」、「探索与替代」、「上下文设定」和「得出结论」。 图6显示,在4096 token输出中,自我纠正和验证相关的词出现频率比512 token输出高约2倍。得出结论的词随token预算增加2-10倍,表明更彻底的验证和完成。 有趣的是,大多数探索相关词在高token数时的相对频率降低,「Alternatively」(或者)是个例外。 总体来看,短思维链的推理模式和长思维链相似,但频率分布不同,长思维链更倾向于自我验证和得出结论。结论
在这项工作中,研究人员提出了「长度控制策略优化」(LCPO),一个简单但强大的方法,用强化学习让大语言模型能灵活控制推理链的长度。
他们用LCPO训练了L1,一个推理语言模型,优化它生成符合提示中长度限制的输出。LCPO比之前的测试时扩展方法强得多,在数学推理任务上比以前的长度控制方法相对提升超过100%,绝对提升20%。 此外,他们还证明了L1能很好地泛化到训练分布之外的任务,把长度控制能力扩展到非训练领域。 更有趣的是,他们的分析发现了一个意外现象:训练生成更长推理链的模型,竟然在短思维链(short-CoT)推理上变得特别强,在相同生成长度下甚至超过了像GPT-4o这样的大得多的前沿模型。 通过使用简单的提示进行长度控制,LCPO为更高效、灵活和可扩展的推理模型开辟了很有前景的道路。来源:东窗史谈