Text4Seg++: 让语言模型生成“文本掩码”，重新定义图像分割

摘要：多模态大语言模型（MLLM）在理解和生成语言方面的能力令人惊叹，但在处理需要精确空间定位的视觉任务（如图像分割）时，往往显得力不从心。现有方法通常需要引入额外的分割解码器或复杂的坐标生成机制，增加了模型的复杂性和计算开销。来自南洋理工大学、武汉大学和字节跳动的

多模态大语言模型（MLLM）在理解和生成语言方面的能力令人惊叹，但在处理需要精确空间定位的视觉任务（如图像分割）时，往往显得力不从心。现有方法通常需要引入额外的分割解码器或复杂的坐标生成机制，增加了模型的复杂性和计算开销。来自南洋理工大学、武汉大学和字节跳动的研究者们提出了一种全新的范式 Text4Seg++ ，将图像分割巧妙地转化为一个纯粹的文本生成问题。其核心思想是“文本作为掩码”（text-as-mask），通过生成一种名为“语义描述符”的特殊文本来表示分割结果，从而完全抛弃了传统的分割解码器。该方法不仅极大地简化了模型架构，还在多个分割基准上取得了SOTA性能，展示了其强大的有效性和泛化能力。

论文标题：Text4Seg++: Advancing Image Segmentation via Generative Language Modeling作者：Mengcheng Lan, Chaofeng Chen, Jiaxing Xu, Zongrui Li, Yiping Ke, Xudong Jiang, Yingchen Yu, Yunqing Zhao, Song Bai机构：南洋理工大学、武汉大学、字节跳动论文地址：https://arxiv.org/abs/2509.06321

将分割能力集成到 MLLM 中是当前多模态研究的热点。传统的 MLLM 分割方法主要分为两类：

“嵌入作为掩码”（Embeddings-as-mask）：这类方法（如LISA）依赖一个外部的分割解码器，将 MLLM 生成的嵌入向量转换为像素级的掩码。这种方式虽然有效，但额外的解码器增加了架构的复杂性，并可能与 MLLM 的原生能力存在隔阂。坐标生成：这类方法（如VisionLLM）直接让模型生成目标的边界框或多边形坐标。这种方式更直接，但在处理复杂或多个物体时，生成的坐标序列可能非常长且难以控制。

为了解决这些问题，Text4Seg++ 提出了第三种范式：“文本作为掩码”（Text-as-mask） ，旨在用统一的生成模型无缝处理语言和分割任务。

论文首先提出了 Text4Seg 框架，其核心是 图像级语义描述符（Image-wise Semantic Descriptors, I-SD）。

I-SD 的思想非常直观：将输入图像划分为一个网格（例如16x16或32x32），对于网格中的每一个补丁（patch），都用一个文本标签来描述它属于哪个对象。例如，如果一个补丁属于“猫”，就用文本“cat”来表示它。这样，一整张图像的分割掩码就被转换成了一个由文本标签组成的序列。这种表示方法可以直接输入到标准的语言模型中进行处理，从而将分割任务完全统一到了文本生成的框架下。

然而，I-SD 会产生非常长的文本序列，尤其是在高分辨率网格下。例如，一个32x32的网格会产生1024个文本标签。为了解决这个问题，研究者们从经典的行程编码（Run-Length Encoding）中获得灵感，提出了 逐行行程编码（Row-wise Run-Length Encoding, R-RLE）。R-RLE 逐行扫描文本标签序列，并将连续的相同标签进行压缩。例如，序列 [car, car, car, person, person] 可以被压缩为 [car*3, person*2]。这种简单的压缩策略效果显著，能够在不损失性能的前提下，将 语义描述符的长度缩短约74% ，并带来 约3倍的推理速度提升。

尽管 Text4Seg 已经表现出色，但 I-SD 的分割粒度受限于初始的网格划分，难以实现像素级的精细分割。为此，论文进一步提出了 Text4Seg++，引入了两种更先进的设计：盒子级语义描述符 和 语义砖。

B-SD 不再对整个图像进行密集编码，而是首先用边界框（bounding box）定位出感兴趣的物体区域。然后，仅在这些边界框内部，使用一种称为 “语义砖”（Semantic Bricks） 的结构化标记来表示精细的掩码。一个“语义砖”是一个特殊的文本标记，它本身代表了一个小尺寸（如4x4）的二值掩码模式。通过组合不同的“语义砖”，模型可以像搭积木一样，在边界框内构建出任意形状的高精度分割掩码。

这种设计将分割任务转化为了一个 “下一砖预测”（next-brick prediction） 的问题，极大地提升了表示的紧凑性和分割的粒度。与 I-SD 相比，B-SD 在更高分辨率下（如64x64）反而能产生更短的 token 序列，实现了精度与效率的双赢。

04 实验结果与分析

研究者们在包括自然图像和遥感图像在内的多种数据集上对 Text4Seg++ 进行了全面评估。

实验结果表明，Text4Seg++ 在多个基准测试中都一致性地超越了现有的SOTA模型，包括推理分割、指代表达式分割、开放词汇分割等。尤其值得一提的是，这些卓越性能是在 没有任何任务特定微调 的情况下实现的，充分证明了该框架强大的泛化能力。以下是模型在不同分割任务上的性能对比和定性结果，展示了其精准的分割效果，即使在复杂的推理场景和遥感图像中也表现出色。引用表达式分割性能：

广义引用表达式分割性能：

推理分割性能：

开放式分割性能：

遥感图像分割性能：

参考表达理解性能：

视觉理解：

定性结果可视化：

05 写在最后

Text4Seg++ 提出了一种极具创新性的“文本作为掩码”的图像分割范式，成功地将分割任务无缝融入到生成式语言模型的框架中。通过引入 语义描述符、R-RLE 压缩 和 语义砖 等一系列创新设计，该工作不仅显著简化了 MLLM 分割模型的架构，还在保证高效率的同时，实现了跨多种任务的SOTA性能。这项工作凸显了以文本驱动方式解决复杂视觉任务的巨大潜力，为开发更强大、更通用的多模态智能体开辟了新的道路。小编认为，将更多视觉任务统一到生成式框架下，是实现下一代AI的重要一步，Text4Seg++ 在这个方向上做出了坚实而优雅的探索。

来源：极市平台

标签：模型图像分割掩码 text4seg 文本掩码

本文地址：https://news.43u.com.cn/a/2539211.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!