CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

摘要：CMU 团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是，要求短推理时，甚至击败了GPT-4o——用的还是相同的token预算！

【导读】 CMU 团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是，要求短推理时，甚至击败了GPT-4o——用的还是相同的token预算！

一个只有15亿参数的小模型，竟然能在相同token预算下挑战GPT-4o的性能！

最近，CMU团队推出了「长度控制策略优化」（LCPO），它让AI的推理过程不再是「一刀切」，而是像个聪明管家，能根据任务需求灵活调整「思考」长度。

无论是啃下复杂的数学难题，还是快速解答简单问题，这个名叫L1的模型都游刃有余。

更惊艳的是，它还能把长推理的智慧「浓缩」到短答案中，使模型的效率和准确性双双飙升。

论文链接：https://arxiv.org/abs/2503.04697 推理型语言模型在测试时展现出了一种独特的能力：「思考更久」可以提升表现。也就是说更长的「思维链」（CoT）序列，通常意味着更高准确性，但也意味着更高的计算成本。然而，目前的CoT推理长度不可控，导致难以在测试时合理分配计算资源，以达到预期的性能水平。研究团队首次证明：在相同token预算下，15亿参数的模型能匹敌GPT-4o的性能。 GPT-4o的参数规模为2000亿左右，是新模型的参数规模的133多倍数！在数学推理任务上，条件完全相同时，L1比S1的相对提升高达100%，绝对提升20%。

除了在标准数学推理场景中更好地控制长度，LCPO训练的模型还能意外地泛化到分布外的任务，包括逻辑推理和像MMLU这样的通用知识基准。而且泛化效果也很好。更厉害的是在生成短推理时，研究团队发现用LCPO训练的「长思维链」（long-CoT）模型变得特别强：当提示要求短推理时，LCPO训练的模型比原始模型强很多（提升高达10%），即便生成长度相同。

问题背景

当前的推理模型有一个关键局限性：它们的推理长度无法控制，这使得无法分配测试时计算预算以达到目标性能水平。这导致了三大问题：

1 计算浪费：在某些情况下，生成的序列可能长达数万个标记，而在较短的推理已经足够的情况下，这会导致计算资源的浪费。

2 过早停止：如果没有长度控制，模型可能会在复杂问题上过早停止，未能分配足够的推理步骤。

3 未探索的权衡：目前无法根据目标性能水平校准推理计算预算，导致潜在效率提升未被探索。

在新研究中，在提示中加入一个目标token长度来解决这个问题。简单来说，给定一个输入提示和一个目标长度，模型需要生成一个回答，让它的长度尽量接近目标长度，同时还得保证答案正确。这种方式把准确性和输出长度直接挂钩，确保生成的思维链符合用户指定的限制。此前的方法，试图通过强制模型在生成过短或过长token时生成特殊token（例如「等待」、「最终答案」），实现长度控制。然而，这种僵硬的、人为设计的策略与基础模型相比，性能显著下降（下图1）。

其他研究探讨了在指令遵循和一般领域中控制输出长度。然而，推理模型面临着全新的挑战，例如输出长度要长得多，以及需要在计算成本和性能提升之间进行权衡。研究人员提出了一个叫做「长度控制策略优化」（LCPO）的简单方法，它基于强化学习（RL），能让推理语言模型精确地、灵活地控制输出长度。 LCPO训练模型时有两个目标：一是最终输出的正确性，二是生成的推理序列要符合提示中指定的长度限制。这样，LCPO训练出来的模型既能满足长度要求，又能优化推理表现，而不是依赖人为设计的规则。研究人员试验了两种实用的长度限制方式：一是「LCPO-Exact」，要求生成的推理长度必须精确等于目标长度；二是「LCPO-Max」，要求输出长度不超过目标长度。他们用LCPO微调了一个15亿参数的推理模型，这个模型基于Qwen-Distilled-R1-1.5B，得到了L1-Max和L1-Exact两个版本。这些L1模型能很好地在token预算和推理性能之间找到平衡，只要在提示中调整长度要求，就能平滑地在短而高效的推理和长而精准的推理之间切换（见图1）。重要的是，在这个权衡曲线上有一个点能恢复原始基础模型的性能，同时在所有推理长度范围内都比S1的表现更好（见图1）。

解决方案：长度控制策略优化

研究团队从一个预训练的推理模型LLM开始，用一个数据集D（包含N个样本），每个样本只有输入提示和最终答案（没有中间的推理过程）。为了实现长度控制，给每个提示加上一个目标长度的指令。这样就得到了一个新的数据集Dnew，包含了带长度指令的提示和对应的答案。接下来，用强化学习的目标来更新模型LLM。在实验中，研究人员选择了GRPO方法。奖励函数包括两部分：正确性奖励rc和长度惩罚rlength。这个奖励函数有两个作用：一是鼓励模型给出正确答案，同时在要求短输出时倾向于简洁的推理过程；二是即使正确答案可以用更少的token生成，它也会持续推动模型尽量匹配指定的目标长度。根据目标长度的指令和训练目标不同，有两类方法：

1 LCPO-Exact（或L1-Exact）：要求生成的推理过程必须严格等于目标长度；示例提示为：「Think for exactly 512 token」

2 LCPO-Max（或L1-Max）：要求生成的输出不得超过目标长度，但可在该范围内灵活调整，以适应不同问题的难度。示例提示为：「Think for maximum 1024 token」

精准模式：L1-Exact

长度控制策略优化（LCPO）是一种简单RL方法，允许推理型语言模型仅使用提示（prompt），自适应地控制生成文本的长度。在推理阶段，输出长度通过在每个测试提示后统一加上一个固定的目标长度（或者一组长度）来控制。适用于下列场景：

1 基准测试（Benchmarking）：确保不同模型在相同token预算下进行公平对比。

2 精确预算控制（Exact Token Budgeting）：在受限资源环境下，严格控制生成内容的长度。

1 问题定义：给定输入提示词x和目标长度n_goal，生成一个长度n_y尽可能接近且答案正确的响应y。目标是最小化 |n_goal-n_y|的同时确保输出正确。 2 提示词增强（Prompt Augmentation）：在每个提示词中增加目标长度指令： 3 强化学习（Reinforcement Learning）：通过奖励函数进行优化，在准确性和长度匹配之间保持平衡：其中， α用于平衡答案正确性和长度匹配的权重。

最大长度限制模式：L1-Max

最大长度限制模式，L-Max适用下列场景：

计算资源受限场景：确保最大token消耗受控，防止超出计算预算。

适应任务难度：允许较简单任务使用更少token，而复杂任务可充分利用预算。

为了训练L1-Max，在L1-Exact的基础上继续微调，用的是同一个强化学习框架，但改进了奖励函数：（1）逐步惩罚超过目标长度的输出，而不是直接硬性截断（这在GRPO目标中需要保证梯度传播）；（2）鼓励模型在不牺牲正确性的情况下，尽量少用token。此外，L1-Max用双重目标训练：如果提示要求精确长度，就用长度控制策略优化；否则默认用最大长度限制模式。具体而言，使用带软约束的奖励函数进行优化，以平衡准确性和token预算：其中参数α控制减少token使用的激励程度；δ确保轻微超出预算但正确的答案优于错误答案。

结果与分析

L1表现远超其他长度控制模型，同时保持强劲性能。

下图2比较了L1-Exact和L1-Max与其它基准模型在不同生成长度下的表现。L1的两个版本在所有token预算下都表现更好，同时还能精确控制长度。

相比专门为长度控制设计的S1方法，L1提升显著，在512和1024 token预算下，相对性能提升100-150%，绝对性能提升20-25%。

这种显著差异可以归因于两个关键原因：一是L1能智能调整思维链，让它适应指定的长度限制还不打断推理过程，而S1经常在中途被截断；二是L1被明确训练来生成不同长度的高质量推理链，能有效把长推理链的推理模式「浓缩」到短链中。另外，研究团队还发现L1的性能随生成推理链的对数长度呈现线性增长，和OpenAI的o1及S1类似。

L1能很好泛化到非训练领域（OOD）任务

研究团队测试了L1在训练分布外的领域控制长度的能力。非训练领域数据集分两类：一是通用推理数据集GPQA和LSAT，没明确用于L1训练，但可能在DeepSeek-R1-1.5B的训练范围内；二是MMLU，可能完全不在DeepSeek-R1-1.5B的训练分布内。下图3显示L1在新领域表现稳健：在非训练通用推理数据集上，性能随token预算正向增长，尽管有长度约束，也接近或匹配Agentica-4K的表现。在GPQA和LSAT上，他们看到和主数据集一样的线性性能增长趋势，L1在相似token预算下能达到Agentica-4K的表现。考虑到L1没针对这些任务训练，这种泛化能力很惊人。在MMLU上，线性关系没那么明显（R²=0.66），可能是因为这些知识类问题从长推理中获益较少。

L1能高精度遵循长度约束

研究团队在多个数学推理数据集上量化评估了L1遵循长度约束的能力。下图4显示，他们的模型在所有token预算（512、1024、2048、3600）下都能保持一致控制，输出长度通常很接近要求长度。

下图5展示了平均误差，反映了数据集中的平均偏离程度。结果显示误差很低，在数学推理数据集上接近3%。虽然非训练数据集误差更高（20-40%），但仍比无控制的提示更好。

长思维链模型暗藏短思维链实力

鉴于L1在低token预算下表现强劲，研究团队专门比较了它与基础非推理模型（Qwen-2.5-1.5B-Instruct）和更大的非推理模型（GPT-4o和Llama-3.3-70B）在相同生成长度下的表现。下表1显示，L1在所有数据集上都持续超越或达到这些模型，尽管token预算相同。平均来看，L1比非推理模型高5%，甚至比GPT-4o平均高2%。据研究者所知，这是首次证明一个15亿参数模型能在相同生成长度下超过GPT-4o这样的前沿模型。总体来说，这表明通过适当的强化学习训练，长思维链模型能灵活转为短思维链模型，同时在相同生成长度下显著超越基础模型。

L1在不同token预算下采用不同推理策略

为了了解L1如何根据长度约束调整推理方法，研究团队分析了不同长度输出中推理相关词语的出现频率。具体来说，他们计算了512 token输出和4096 token输出中最常见推理词的出现率，观察模型在不同长度约束下的策略变化。下图6把这些关键词分成四种推理模式：「自我纠正与验证」、「探索与替代」、「上下文设定」和「得出结论」。图6显示，在4096 token输出中，自我纠正和验证相关的词出现频率比512 token输出高约2倍。得出结论的词随token预算增加2-10倍，表明更彻底的验证和完成。有趣的是，大多数探索相关词在高token数时的相对频率降低，「Alternatively」（或者）是个例外。总体来看，短思维链的推理模式和长思维链相似，但频率分布不同，长思维链更倾向于自我验证和得出结论。

下图7还展示了不同生成长度下思考token（标签内）和答案token的比例。他们发现这个比例在不同长度下相对稳定。这意味着短思维链时，模型通常给出简短答案（往往直接输出最终答案），节省token。随着生成长度增加，最后两栏的答案长度趋于稳定，说明模型扩展了思考token，但没让最终答案变得啰嗦。

结论

在这项工作中，研究人员提出了「长度控制策略优化」（LCPO），一个简单但强大的方法，用强化学习让大语言模型能灵活控制推理链的长度。

他们用LCPO训练了L1，一个推理语言模型，优化它生成符合提示中长度限制的输出。LCPO比之前的测试时扩展方法强得多，在数学推理任务上比以前的长度控制方法相对提升超过100%，绝对提升20%。此外，他们还证明了L1能很好地泛化到训练分布之外的任务，把长度控制能力扩展到非训练领域。更有趣的是，他们的分析发现了一个意外现象：训练生成更长推理链的模型，竟然在短思维链（short-CoT）推理上变得特别强，在相同生成长度下甚至超过了像GPT-4o这样的大得多的前沿模型。通过使用简单的提示进行长度控制，LCPO为更高效、灵活和可扩展的推理模型开辟了很有前景的道路。

来源：东窗史谈

标签： s1 cmu token lcpo lcpo提示

本文地址：https://news.43u.com.cn/a/653437.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!