Text4Seg++: 让语言模型生成“文本掩码”,重新定义图像分割

360影视 欧美动漫 2025-09-12 19:33 1

摘要:多模态大语言模型(MLLM)在理解和生成语言方面的能力令人惊叹,但在处理需要精确空间定位的视觉任务(如图像分割)时,往往显得力不从心。现有方法通常需要引入额外的分割解码器或复杂的坐标生成机制,增加了模型的复杂性和计算开销。来自南洋理工大学、武汉大学和字节跳动的

多模态大语言模型(MLLM)在理解和生成语言方面的能力令人惊叹,但在处理需要精确空间定位的视觉任务(如图像分割)时,往往显得力不从心。现有方法通常需要引入额外的分割解码器或复杂的坐标生成机制,增加了模型的复杂性和计算开销。来自南洋理工大学、武汉大学和字节跳动的研究者们提出了一种全新的范式 Text4Seg++ ,将图像分割巧妙地转化为一个纯粹的文本生成问题。其核心思想是“文本作为掩码”(text-as-mask),通过生成一种名为“语义描述符”的特殊文本来表示分割结果,从而完全抛弃了传统的分割解码器。该方法不仅极大地简化了模型架构,还在多个分割基准上取得了SOTA性能,展示了其强大的有效性和泛化能力。

论文标题:Text4Seg++: Advancing Image Segmentation via Generative Language Modeling作者:Mengcheng Lan, Chaofeng Chen, Jiaxing Xu, Zongrui Li, Yiping Ke, Xudong Jiang, Yingchen Yu, Yunqing Zhao, Song Bai机构:南洋理工大学、武汉大学、字节跳动论文地址:https://arxiv.org/abs/2509.06321

将分割能力集成到 MLLM 中是当前多模态研究的热点。传统的 MLLM 分割方法主要分为两类:

“嵌入作为掩码”(Embeddings-as-mask):这类方法(如LISA)依赖一个外部的分割解码器,将 MLLM 生成的嵌入向量转换为像素级的掩码。这种方式虽然有效,但额外的解码器增加了架构的复杂性,并可能与 MLLM 的原生能力存在隔阂。坐标生成:这类方法(如VisionLLM)直接让模型生成目标的边界框或多边形坐标。这种方式更直接,但在处理复杂或多个物体时,生成的坐标序列可能非常长且难以控制。

为了解决这些问题,Text4Seg++ 提出了第三种范式:“文本作为掩码”(Text-as-mask) ,旨在用统一的生成模型无缝处理语言和分割任务。

论文首先提出了 Text4Seg 框架,其核心是 图像级语义描述符(Image-wise Semantic Descriptors, I-SD)

I-SD 的思想非常直观:将输入图像划分为一个网格(例如16x16或32x32),对于网格中的每一个补丁(patch),都用一个文本标签来描述它属于哪个对象。例如,如果一个补丁属于“猫”,就用文本“cat”来表示它。这样,一整张图像的分割掩码就被转换成了一个由文本标签组成的序列。这种表示方法可以直接输入到标准的语言模型中进行处理,从而将分割任务完全统一到了文本生成的框架下。

然而,I-SD 会产生非常长的文本序列,尤其是在高分辨率网格下。例如,一个32x32的网格会产生1024个文本标签。为了解决这个问题,研究者们从经典的行程编码(Run-Length Encoding)中获得灵感,提出了 逐行行程编码(Row-wise Run-Length Encoding, R-RLE)。R-RLE 逐行扫描文本标签序列,并将连续的相同标签进行压缩。例如,序列 [car, car, car, person, person] 可以被压缩为 [car*3, person*2]。这种简单的压缩策略效果显著,能够在不损失性能的前提下,将 语义描述符的长度缩短约74% ,并带来 约3倍的推理速度提升

尽管 Text4Seg 已经表现出色,但 I-SD 的分割粒度受限于初始的网格划分,难以实现像素级的精细分割。为此,论文进一步提出了 Text4Seg++,引入了两种更先进的设计:盒子级语义描述符语义砖

B-SD 不再对整个图像进行密集编码,而是首先用边界框(bounding box)定位出感兴趣的物体区域。然后,仅在这些边界框内部,使用一种称为 “语义砖”(Semantic Bricks) 的结构化标记来表示精细的掩码。一个“语义砖”是一个特殊的文本标记,它本身代表了一个小尺寸(如4x4)的二值掩码模式。通过组合不同的“语义砖”,模型可以像搭积木一样,在边界框内构建出任意形状的高精度分割掩码。

这种设计将分割任务转化为了一个 “下一砖预测”(next-brick prediction) 的问题,极大地提升了表示的紧凑性和分割的粒度。与 I-SD 相比,B-SD 在更高分辨率下(如64x64)反而能产生更短的 token 序列,实现了精度与效率的双赢。

04 实验结果与分析

研究者们在包括自然图像和遥感图像在内的多种数据集上对 Text4Seg++ 进行了全面评估。

实验结果表明,Text4Seg++ 在多个基准测试中都一致性地超越了现有的SOTA模型,包括推理分割、指代表达式分割、开放词汇分割等。尤其值得一提的是,这些卓越性能是在 没有任何任务特定微调 的情况下实现的,充分证明了该框架强大的泛化能力。以下是模型在不同分割任务上的性能对比和定性结果,展示了其精准的分割效果,即使在复杂的推理场景和遥感图像中也表现出色。引用表达式分割性能:

广义引用表达式分割性能:

推理分割性能:

开放式分割性能:

遥感图像分割性能:

参考表达理解性能:

视觉理解:

定性结果可视化:

05 写在最后

Text4Seg++ 提出了一种极具创新性的“文本作为掩码”的图像分割范式,成功地将分割任务无缝融入到生成式语言模型的框架中。通过引入 语义描述符R-RLE 压缩语义砖 等一系列创新设计,该工作不仅显著简化了 MLLM 分割模型的架构,还在保证高效率的同时,实现了跨多种任务的SOTA性能。这项工作凸显了以文本驱动方式解决复杂视觉任务的巨大潜力,为开发更强大、更通用的多模态智能体开辟了新的道路。小编认为,将更多视觉任务统一到生成式框架下,是实现下一代AI的重要一步,Text4Seg++ 在这个方向上做出了坚实而优雅的探索。

来源:极市平台

相关推荐