摘要:在2025年5月发表于arXiv的一篇前沿研究论文中,来自哈佛大学、东北大学、中国科学院、武汉大学、麻省理工学院和北京大学的多位研究者联合提出了一个颠覆性观点:Token压缩不仅仅是提高AI模型运行效率的工具,更应该成为生成式AI模型设计的核心原则。这项由Zh
在2025年5月发表于arXiv的一篇前沿研究论文中,来自哈佛大学、东北大学、中国科学院、武汉大学、麻省理工学院和北京大学的多位研究者联合提出了一个颠覆性观点:Token压缩不仅仅是提高AI模型运行效率的工具,更应该成为生成式AI模型设计的核心原则。这项由Zhenglun Kong和Yize Li共同主导的研究(arXiv:2505.18227v1)从视觉、语言到多模态全方位审视了Token压缩技术的潜力。
想象一下,如果我们把AI模型比作一个处理信息的工厂,那么"Token"就是工厂加工的基本单位——可能是一段文字中的单词,一张图片中的区块,或者是视频中的片段。传统上,研究人员主要关注如何让工厂更快地处理这些单位,也就是提高效率。但这篇研究告诉我们,我们不应该只关心速度,更应该思考:工厂是否在处理真正重要的信息?是否存在大量无用的"Token"占用了宝贵资源?
传统的Transformer架构在处理信息时会将输入数据切分成固定长度的块(Token),然后通过自注意力机制进行并行计算。这种机制虽然强大,但计算复杂度与Token数量的平方成正比,这意味着处理长序列时会面临巨大的计算和内存压力。过去,研究人员主要将Token压缩视为一种提高效率的手段,通过删减或合并冗余Token来加速推理过程。
然而,本文作者认为,在当今大型生成模型时代,Token压缩的意义远不止于此。他们提出Token压缩应该被视为生成式建模的基本原则,深刻影响模型架构设计和更广泛的应用。具体来说,他们认为跨视觉、语言和多模态系统,Token压缩可以:
首先,它可以促进多模态(如图像和文字)之间的深度整合与对齐。想象一下,如果我们能够智能地选择图片中真正重要的部分与文字进行匹配,而不是机械地处理整张图片的每一个像素,这将极大地提高模型理解图文关系的能力。
其次,它可以减轻AI模型中常见的"过度思考"和"幻觉"问题。就像人类思考时会专注于关键信息而非事无巨细地分析每一个细节,AI模型也需要学会关注真正重要的Token,避免在无关紧要的信息上浪费计算资源,从而减少产生错误或虚构内容的可能性。
第三,它可以帮助模型在处理超长输入时保持连贯性。当处理一部长篇小说或一段长视频时,模型需要记住早期的关键信息以保持理解的一致性,而不是被海量的细节所淹没。
最后,它还能增强训练稳定性。通过在训练过程中就学会识别和关注重要Token,模型可以更高效地学习,减少噪声数据的干扰。
让我们以多模态大语言模型(MLLM)为例来理解这一点。当这类模型同时处理图像和文本时,它们面临着视觉冗余的问题——背景像素可能会掩盖关键的视觉特征。传统方法可能会盲目地处理所有像素,但如果我们能够智能地筛选出真正重要的视觉Token,模型就能更准确地理解图像内容,并与文本建立更紧密的联系。
研究团队在论文中首先回顾了Token压缩技术在视觉、语言和多模态领域的发展历程。在视觉Transformer中,Token压缩主要用于减少计算成本,但这种方法可能会丢弃细微但重要的视觉特征。在语言模型中,Token压缩通常通过提前退出机制和Token跳过策略实现。而在多模态大语言模型中,视觉Token修剪主要应用于预填充阶段,以减少后续处理的计算负担。
然而,研究者指出,现有工作仍主要将Token压缩视为提高计算效率的手段,这种效率导向的思维存在关键局限性。过于简单的修剪方法可能会丢弃信息丰富的Token,从而降低模型的理解能力和性能。此外,Token压缩通常被视为事后优化,而非模型设计和训练的核心部分。
针对这些问题,研究团队提出了将Token压缩作为生成式模型设计核心原则的新范式。他们认为,智能的Token选择不仅可以减少计算负担,还能同时提高模型的鲁棒性、可解释性和对齐性。这一观点的提出基于对现代生成式任务面临的多种挑战的深入分析,如超长上下文处理、多模态对齐、推理冗余等。
在视觉表示方面,研究人员指出多模态大语言模型常常因为嘈杂的视觉输入而难以进行细粒度理解。他们分析了三个关键挑战:文本-视觉注意力偏移(模型可能会过度关注图像的特定区域而忽略其他重要部分);视觉冗余(大量图像Token在前几层之后提供很少新信息);以及视觉问答中的任务引导焦点(问题本身往往指向图像中的特定区域)。
针对这些挑战,研究者建议将Token压缩视为一种表示学习优化:选择能够保留信息丰富的视觉表示的Token子集。例如,VisPruner利用视觉编码器注意力识别高价值Token,并通过聚类移除重复内容以确保多样性。VTW则观察到视觉信息在早期层中会迁移到文本Token中,因此可以在特定层之后撤回所有视觉Token。TRIM则利用CLIP度量和IQR评分功能自适应地选择对回答问题至关重要的图像Token,同时使用聚合Token保留其他图像信息。
在多模态Token对齐方面,研究者指出,尽管多模态大语言模型功能强大,但在语义对齐上仍面临挑战。标准视觉分词器通常将图像分割成固定大小的区块,这可能导致连贯的视觉实体(如对象或区域)分散在多个Token中,削弱了视觉和语言表示之间的对齐。Token压缩提供了一个有前景的解决方案:基于语义重要性选择视觉Token,从而产生一组更好地与语言表示对齐的紧凑Token集合。
具体来说,SeTok使用密度峰值算法将视觉特征动态聚类成语义上有意义的Token,同时确定每个图像的Token分组数量和结构。这种方法保留了高频和低频语义,显著改善了概念级别的对齐和下游任务性能。而M3则引入了分层Token结构,捕获从粗到细的语义粒度,允许根据任务需求选择性地保留不同抽象级别。
在推理冗余方面,研究者指出语言模型的"过度思考"问题,即生成过长或过于复杂的推理链,超出了达到正确答案所需的范围。这种过度推理效率低下,常常产生冗长、重复甚至自相矛盾的解释。例如,最先进的推理器在解决数学问题时可能消耗超过15,000个Token,而一个简明的思维链(CoT)只需几百个Token就能解决同样的问题。
通过减少推理过程中不必要的Token,语言模型可以专注于关键步骤,使生成更符合简洁逻辑的轨迹。CoT-Influx引入了一种CoT剪枝策略,在提示中包含简明的推理示例。通过从这些示例中剪枝不重要的Token,更多推理示范可以适应上下文窗口,从而提高数学推理准确性。TokenSkip则使LLM能够跳过CoT序列中不太重要的Token,在关键推理步骤之间学习捷径,允许可控的CoT压缩,使模型能够在推理过程中自动修剪冗余Token。
在训练稳定性方面,虽然Token压缩传统上被视为训练后优化以提高推理效率,但最近的研究表明,当集成到预训练阶段时,它可以显著提高训练稳定性。例如,Rho-1通过使用参考模型根据与期望分布的对齐程度对Token进行评分,然后将训练损失集中在得分较高的Token上,有效地过滤掉嘈杂或信息量较少的Token,从而加快收敛并提高性能。UPFT则强调训练中初始推理步骤的重要性,通过减少训练Token数量,鼓励模型专注于推理轨迹的初始前缀子字符串,这些子字符串通常更稳定并包含关键信息。这种聚焦帮助模型避免受后续复杂或潜在错误信息的影响,从而提高训练稳定性。
在长上下文和视频理解方面,长上下文语言建模面临着独特的挑战:长文本常包含展示重复描述和不相关细节的原始Token;基于LLM的代理系统使用输入数据作为推理或多任务切换的顺序提示,当提示过大时可能导致过载;以及难以扩展到更长内容以学习更多信息。Token压缩技术通过将大量输入序列提炼为紧凑的摘要向量或代表性Token直接解决了这些问题,从而保留核心信息如关键事件、中心主题或特定任务的事实,同时显著减少认知负荷。
例如,AutoCompressors训练预训练LLM将长上下文压缩为紧凑的摘要Token,将Token长度减少几个数量级,从而扩展上下文窗口并加速推理。TokenSwift通过使用多Token并行生成和n-gram检索进行Token重用,减少了模型在生成过程中动态处理的有效Token数量,从而实现高效的超长序列生成(最多10万个Token)。
视频处理方面,Token压缩的必要性主要在于提高模型对视频内容的有效理解。它可以指导信息过滤、保留时空结构、保存语义完整性并促进多模态对齐。例如,HICom在局部和全局层面进行条件Token压缩,使用用户指令作为指导来保留指令相关的视觉信息,同时减少计算负担。Video-XL-Pro则采用重构性Token压缩,使用动态Token合成器和语义引导掩码生成紧凑但全面的视频Token,从而提高MLLM性能和效率。
最后,研究团队展望了Token压缩研究的未来方向,提出了八个具有前景的研究方向,分为算法创新、应用创新和硬件算法协同设计三大类别。
在算法创新方面,他们建议未来研究应探索全面和自适应的Token压缩策略。基于最新进展,研究者提出了六个有前景的方向:更好的Token重要性度量(开发超越注意力为基础的代理的更强大、无偏见的评分机制);构造性Token压缩(从纯粹的消除性剪枝转向合并空间或语义上相似的Token为紧凑摘要向量的策略);缓解位置偏差(保留Token中的空间多样性,通过在保留的Token中强制结构均匀性来改善视觉任务的鲁棒性);跨模态引导剪枝(根据模态间依赖关系而非独立为每个模态做决策来引导MLLMs中的剪枝决策);端到端稀疏化(考虑LLMs的预填充阶段和解码阶段,包括动态管理KV缓存的稀疏性并有选择地更新生成的Token);以及硬件算法协同设计(探索利用动态Token稀疏性模式的自定义硬件和编译器优化)。
在应用创新方面,他们提出了几个关键研究方向:强化学习驱动的Token压缩(通过动态奖励机制和稀疏性约束平衡计算效率和推理准确性);从提示调整到上下文学习(强调如何让每个Token在上下文中承载更多信息或触发更复杂的推理);以及更广泛的机器学习和科学领域的应用(如如何将Token压缩技术应用到医学、生物学和时间序列分析等领域)。
在硬件算法协同设计方面,他们指出目前针对Token压缩的协同设计努力明显落后于纯算法研究。未来研究应该设计可参数化、可重配置的加速器模块,探索处理器内存(PIM)架构以减轻动态Token剪枝造成的严重内存瓶颈。
总结来说,这篇论文提出了一个重要观点:Token压缩不应仅仅被视为提高效率的手段,而应成为生成式建模的核心设计原则。通过采用这种更全面的方法,研究者可以开发出不仅更高效,而且更鲁棒、更具可解释性并更好地与现实世界需求对齐的新一代生成架构。这一观点的转变将为处理现代生成任务中的关键挑战,如视觉表示稀疏性、语义错位、推理冗余、训练不稳定性和长上下文过载等问题提供新思路。
来源:小康说科技