大模型狙击黑产：挚文集团社交生态攻防实战全揭秘

摘要：在 InfoQ 举办的 AICon 全球人工智能开发与应用大会上摯文集团生态技术负责人李波做了专题演讲“大模型在社交生态领域的落地实践”，演讲从摯文集团实际的生态问题出发，从多模态大模型如何进行对抗性生态内容理解、如何进行细粒度用户性质判定，以及如何进行人机协

演讲嘉宾｜李波

策划｜AICon 全球人工智能开发与应用大会

在 InfoQ 举办的 AICon 全球人工智能开发与应用大会上摯文集团生态技术负责人李波做了专题演讲“大模型在社交生态领域的落地实践”，演讲从摯文集团实际的生态问题出发，从多模态大模型如何进行对抗性生态内容理解、如何进行细粒度用户性质判定，以及如何进行人机协同降本提效等方向展开。

嘉宾介绍

李波，毕业中国科学技术大学计算机系，在广告、推荐等方向有十余年的资深经验，先后负责过信息流、直播、短视频等典型内容场景的推荐业务，均取得过突出成绩；近两年，结合大模型能力，面向集团国内、海外各业务线的生态问题开展工作，在跨语言多模态内容理解，人机协同等方向进行全方位技术转型和升级，带来显性的降本提效变化。

内容亮点

了解泛社交生态领域中的问题和挑战

大模型在面向生态对抗性问题中的解决方案

开拓思路，大模型如何在互联网企业中降本提效

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

摯文集团生态问题总览

提到挚文集团，可能大家对这个名字不太熟悉，但对我们旗下的产品线应该比较了解。挚文集团是一家涵盖陌陌、探探以及海外创新社交产品矩阵的集团化公司。我们在社交和泛社交领域已经深耕了十几年。

在聚焦生态问题时，我们会重点关注社交赛道上的生态问题。提到“生态”这个词，大家可能既熟悉又陌生。很多人对生态的理解可能比较狭义，甚至会将其与一些负面问题联系起来。从社交领域来看，我们更多是从人的角度来理解生态问题。它主要可以分为黑产和灰产两种情况。对于黑产，我们认为它具有团伙性质，且具备明确的产业链分工，并在下游从事一些违法犯罪活动。对于灰产，则更多是非团伙性质，以直接获取利益为目标，比如通过获客或在平台上进行红包乞讨等行为。

在整个生态治理过程中，我们面临许多痛点和难点。首先，痛点之一是多元多模态问题。由于我们有出海业务，生态治理需要涵盖多种语言，包括中文、英文、日语、阿拉伯语和土耳其语等。同时，治理对象涉及图像、文本、语音和视频等多种模态。这种多元多模态的特性增加了治理成本。第二个痛点是时效性要求高。生态治理需要快速响应，污染爆发和处置的时间间隔不能过长。例如，一旦黑产爆发，我们需要迅速封禁并加以管控，否则会影响治理效果。

除了痛点，生态治理的难点主要体现在强对抗性，这可能超出大家的想象。首先，内容方面存在大量变体。例如，黑产不再简单地发送联系方式，而是通过 AIGC 生成复杂的方式传递信息。其次，行为模式上，黑产团伙会协作作案。比如，一个人发布吸引流量的视频，另一个团伙成员在评论区置顶，第三个人在置顶评论下引导用户查看置顶用户的头像，从而完成一次隐蔽的团伙作案。最后，系统机制方面，黑产团伙会通过大量刷平台 API 接口，发送超大、超长或异常格式的图片，对抗内容检测模型。

从各种痛点和难点来看，生态治理并不是通过一两个模型就能解决的问题，而是一个非常复杂的体系化问题。因此，我们需要构建一个完善的系统性治理框架。在这个框架中，我梳理了策略应用环节涉及的几个关键问题，包括底层模型层（如用户模型和内容模型）、能力接入层（如用户画像和内容标签），以及上层的生态治理策略（包括同步推审能力和异步推审能力）。同时，我们还需要结合审核能力和对污染的巡视结果，不断强化治理能力。我会主要聚焦在以下三个问题上：

底层能力层。我们需要在多模态和大模型方面提升对内容的理解能力。

能力接入层。大模型如何精细化、批量地加工用户画像。

大模型在生态审核侧的应用情况。

多模态大模型提升生态内容对抗能力

大家对生态问题的理解更多是偏向于狭义的负面问题，但实际上生态问题更多是一个资源分配问题，需要持续不断地打压负向内容，提升正向内容。因此，生态治理需要大量正向内容理解的支持。

我们过去在 CV、LPSR（可能是指某种特定的模型或技术模块）以及多模态组合方面构建了许多标签，例如人物属性、人脸属性、场景识别、动作识别和物体识别等。对于负向内容理解问题，它更多是强内容对抗性问题，例如荷尔蒙相关问题涉及大量特定话术，像“喝茶”“加油”“修车”等，这些都可能暗示招嫖行为。

在大模型时代，我们希望对内容模型进行代际革新，预期目标是通过一个方案解决跨语言、多模态问题，同时具备正向和负向内容理解能力，彻底解决维护和迭代困难的问题。

有了这样的预期目标，对模型本身能力的要求也非常高。在多模态大模型的精模能力基础上，我们希望通用能力不下降，同时生态业务能力有显著提升。

基于这样的诉求，我们的方案大致如下：我们希望采用统一基模方案，这是当前多模态大模型通用的架构。我们希望方案具备多尺寸搭配，包括一个 7B 到 8B 左右的模型，用于解决大部分多模态理解问题；一个 34B 以上的模型，用于解决复杂任务；以及一个 2B 以下的小尺寸模型，用于应对高性能场景。

对于多语言、多模态的需求，目前重点是音频模态，我们目前具备 Audio-Language 双模态模型的能力，并正在研发 Vision-Audio-Language 三模态模型。

对于下游应用能力，我们希望具备以下三种能力：一是通用的 Prompt Engineering（提示工程）应用能力；二是针对生态问题的应急爆发能力，希望能够在少量样本的情况下快速训练出可上线版本，因此需要具备快速响应的 Tuning 能力；三是对于复杂业务问题，希望具备 Post-Training 的下游业务定制化能力。

有了这样的预期之后，我们就可以开始多模态大模型的研发工作。但在正式开始之前，我们需要思考清楚很多问题。

首先，方案应该如何设计？如何解决通用能力不下降、生态能力提升这一关键问题？其次，是否需要引入 CPT？如果是进行 Post-Training，是单纯采用 SFT，还是结合 DPO 的方案？此外，基模的选型也是一个重要问题。我们需要兼容多种模态需求，例如单图、多图、单模态和混合模态输入。同时，模型框架需要易于扩展，方便后续的加工和改造。

在数据构建、模型训练和效果评估方面，也需要提前思考清楚诸多问题。明确了这些问题之后，多模态大模型的研发就可以正式启动。然而，在整个过程中，我们也走过不少弯路，踩过很多坑。接下来，我们回顾一下我们曾经遇到过的一些问题。

方案 1：Post-train 下游多任务对齐

最初，我们拿到这个问题后，第一个想到的方案是 Post-Training，即对下游任务进行多任务对齐。这个方案非常直观，可能也是大多数人在面对类似任务时首先想到的方案。具体来说，我们希望通过构建大量的正向和负向多任务数据，进行下游多任务对齐，从而强化模型的正向和负向能力。

对于正向数据，我们重点关注强化标签化的描述（caption）能力和 OCR 能力。我们列举了几个典型任务：首先是开放域多标签任务。过去，标签化工作一直是许多领域的传统难题。在传统模型时代，由于模型多为判别式或识别类模型，标签通常局限于闭合域。但在大模型时代，我们希望将内容理解升级到开放域标签，具备多维度、领域化的标签能力。

同时，作为社交行业，我们有大量的自拍、生活化图片，因此构建了 VQA 任务，以提升模型对人效理解的能力。此外，我们还补充了中文 OCR 任务，包括传统 OCR 问题和 AIGC 类 OCR 问题。

对于负向数据，我们希望强化下游生态的负向应用能力。例如，针对荷尔蒙问题，我们定义了多种逻辑，将问题内容映射到轻度低俗、重度低俗或涉嫌违法等维度。

对于 VQA 问题生成，我们发现仅靠模型自动生成的问题会非常单一。因此，我们先对图片进行详细标签化理解，再生成不同类型的问题，如判断题、问答题或逻辑推理题，以增加问题的多样性。

在模型训练方面，我们需要考虑数据组合，包括开源数据和业务数据的配比。在 SFT 方案中，我们需要决定是采用全参数微调，还是使用 LoRA 等技术。

此外，我们还需要考虑是否在训练过程中打开模型的某些参数，以及如何设置学习率、批量大小、退火策略等超参数。

我们对这一结果进行了反思：首先，我们训练的模型是 7B 到 8B 左右的中等尺寸模型，但其推理能力存在缺陷。对于强业务定义类问题，从大量业务定义到最终结果之间存在推理过程，而模型的理解能力与最终结果之间存在明显差距。

因此，我们意识到不能直接用指令式学习来解决业务定义类问题，而是需要将其转化为基础理解问题，从而引出了第二个方案。

方案 2：业务指令抽象到事实理解

第二个方案，即业务指令抽象到事实理解。具体做法如下：以导流和荷尔蒙问题为例，过去的数据构造更多偏向于指令式数据，例如直接要求判断图片是否属于导流，以及导流内容是什么。

现在，我们首先会对图片进行 OCR 理解，识别出图片中的所有文字，再根据文字判断是否含有导流信息。对于荷尔蒙问题，过去是通过大量业务定义的 prompt，直接判断图片是否属于某种类型。

而现在，我们会先对图片进行强描述理解，然后逐一比对，判断图片是否包含身体部位的聚焦、是否存在不当内容等问题。

最终，这是一个 COT 的过程。业务定义的改变也涉及数据构造的变化。我们需要利用 GPT-4 等工具进行批量标注，再通过人工校正，以获取高质量的标注数据。

基于这些结论，我们进行了更深入的反思：首先，我们思考底层多模态大模型是否天然存在缺陷，导致其难以解决对抗性问题，例如复杂的 OCR 问题。

其次，我们意识到将不同类型的任务混合在一起进行 SFT（可能并不合适，不能简单地汇总这些任务进行统一微调。基于这些反思，我们进一步探索了方案三。

方案 3：CPT 强化基模底层能力，

Post-train 分类强化业务应用

方案三相对复杂，是一个两阶段的任务。第一阶段希望通过 CPT（可能指某种强化训练方法）强化基模的生态对抗性理解能力；第二阶段则通过 Post-train（后训练）分类强化下游业务能力。

第一阶段：CPT 强化对抗性理解能力

首先，需要确认 CPT 本身是否是一个有效的方案。我们质疑基模在对抗性 OCR 理解能力上是否存在缺陷。为此，我们从线上业务数据中收集了大量对抗性 OCR 问题，包括手写体水印、小字（如帽子上的小字）、通过物体组合传递导流信息、扭曲变形的 OCR 以及 AIGC 类 OCR。

结果发现，除了水印问题外，其他类型在多模态基模和 GPT-4 等模型上的表现都非常差，尤其是在 AIGC 类 OCR 问题上。这说明问题本身是成立的，需要通过 CPT 强化对抗性理解能力。

强化的重点是 OCR 能力和对抗性文本理解能力，尤其是 OCR 能力。具体方法是在数据层面下功夫，通过合成数据强化 CPT。合成数据分为两类：

传统对抗性 OCR 问题：通过 OpenCV 等工具批量生成变形（如三角形、圆形、波浪形）和手写体的 OCR 数据，构建手写库并将其贴到图片上，生成对抗性 OCR 模型。同时，生成水印组合类数据，解决传统对抗性问题。

AIGC 类 OCR 问题：通过 Stable Diffusion 加 Control Net 生成数据。首先从线上业务数据中获取大量图片，进行细粒度的标签化描述理解，然后通过随机底图和 SD 加 Control Net 生成数据。生成的结果在近距离看是清晰的，但从远处看则难以辨认。

通过上述合成数据，开启 CPT 训练。训练过程中需要加入大量开源数据，保持模型的描述（caption）能力，并借助开源的 OCR 和描述能力，再加上批量合成的对抗性数据。经过针对性强化后，对抗性 OCR 问题在几乎所有类型上都得到了显著提升。

第二阶段的核心问题是是否可以将所有问题放在一起进行 SFT。经过反思，我们认为这是一个多领域问题，类似于推荐系统中常见的跨领域问题。跨领域问题不能简单地将所有任务放在一起训练，而是需要考虑使用专有参数和共享参数来解决。

我们选择了第二种方案，即对问题进行拆分：

复杂业务定义类问题：单独处理，因为这类问题可能需要特殊参数或更复杂的方案，例如使用 Prefix Training（前缀训练）或下游更复杂的 DPO 对齐方案。以荷尔蒙问题为例，通过独立建模，效果显著优于传统模型。

经验教训

在整个过程中，我们积累了丰富的经验教训。首先，方案设计必须非常清晰。这包括明确预期目标，确保方案与目标之间没有偏差，同时要清楚区分模型的基础能力和应用能力。

在必要时，基础能力与应用能力需要进行隔离，以避免相互干扰。其次，数据构建是至关重要的环节。无论怎么强调都不为过，我们需要掌握多种获取优质训练数据的方案，包括人工标注、利用 GPT-4 等工具进行标注，以及合成数据的生成。

这些方法需要综合运用，以确保数据的质量和多样性。第三，训练过程中切忌过于依赖技巧。虽然训练技巧能够在一定程度上提升模型效果，但在实际业务场景中，应专注于面向具体问题，优先寻找通用化的解决方案来提升模型能力，而不是沉迷于各种训练技巧。

最后，必须建立清晰的评估标准，并加快评估流程。明确的评估标准能够帮助我们快速了解模型的性能，从而加快迭代效率，及时调整优化方向。

大模型进行细粒度用户画像建设

用户画像在生态治理过程中扮演着非常关键的角色。它不仅能够对风险用户进行前置圈定，还能在污染爆发过程中快速对垃圾信息（SPAM）用户进行推审。然而，在传统方案中，用户画像的构建主要依赖于深度学习模型，通过大量内容理解标签进行后置加工处理。这种方法存在诸多问题：

业务形态差异大：不同业务形态之间差异显著，导致特征来源多样化，画像需要独立建模，难以批量加工，方案的可迁移性差，仅能解决单点问题。

精细化区分能力不足：传统深度学习模型在语义理解上存在较大缺陷，难以进行精细化区分。若要进一步提升精细化能力，只能通过增加数据成本来实现，而这会导致成本大幅上升。

特征和数据异构性问题：由于特征和数据的异构性，很难构建一个强大的数据反馈体系。

在大模型时代，我们构建了一个统一化的方案，从实施会话数据出发，形成了一个“前置召回 + 大模型推理 + 后置加工”的完整方案，解决了三个核心问题：

统一化批量加工：通过统一化的方案，提升了批量加工效率，能够在集团内任何一个 APP 上轻松部署。该方案统一了数据源和整体方案架构，并通过前置召回降低了加工成本。

细粒度理解能力：大模型具备强大的细粒度理解能力，能够清晰地进行画像精细化处理。例如，在导流问题上，能够明确区分用户是在打广告、进行金融欺诈还是骚扰行为。

数据飞轮构建：通过线上巡视和污染标注，不断强化前置召回和大模型推理过程，构建了数据飞轮，实现了自我强化。

有了这样的方案并不意味着问题已经完全解决。它仍然存在诸多难点：

逻辑推理缺陷：7B 左右的模型在逻辑推理上存在缺陷，对于复杂的业务定义类问题（依赖强推理能力）难以处理。此外，如果对话上下文存在语义模糊性，模型容易误判。

对抗性话术理解能力差：模型在理解暗示性或对抗性话术方面表现不佳，难以有效识别。

为了解决这些问题，我们采取了以下措施：

业务定义转换：在训练过程中，将复杂的业务定义问题转换为事实判断问题，并加入 COT 过程。在 SFT 中也加入 COT，以强化模型对业务问题的推理能力。

强化对抗性理解能力：通过构建大量合成的对抗性数据对，强化模型的语言对话能力。这一方法在之前大模型的优化环节中已经有所介绍。

大模型在生态审核侧的应用

大模型在生态审核侧的应用落地涉及同步和异步两种方案。生态审核的核心需求是：一旦污染或黑产团伙爆发，必须第一时间管控并快速封禁。这要求同步和异步方案协同工作。

同步方案的特点是高精度和低延迟。它依赖于内容识别模型，例如色情识别模型，能够实时识别并拦截相关内容。一旦检测到作弊团伙的行为模式，系统会立即自动封禁相关用户。这种方案要求模型具备极高的准确率，且几乎没有延迟，以确保能够及时拦截有害内容。

异步方案则侧重于高召回率。它结合更多特征和更大模型，旨在捕捉更多负向问题。异步方案需要对内容模型和用户行为特征进行汇总加工，以实现高召回率的推审。虽然对精度有一定要求，但更注重全面性。模型的迭代周期通常为天级别，而审核的延迟大约为小时级别。

在过去，生态对抗治理依赖于一个工具——黑库。黑库是一个对象化的检索库，通过构建大量异构数据集，将黑样本加入黑库后进行线上部署，实时检测并同步拦截相关内容。然而，在 AIGC 时代，黑库面临挑战：AIGC 生成内容的速度极快，稍作变化就能绕过传统黑库的检测。

解决方案

自适应黑库

为应对 AIGC 带来的挑战，我们将黑库升级为自适应黑库。其流程如下：操作员将种子样本（如图片 1）加入黑库后，系统自动回扫并识别出相关图片（如图片 2、图片 3、图片 4）。

人工判断这些图片是否需要加入黑库。如果图片 2 被加入，系统会自动更新图片 1 的检索阈值，并扩展图片 2 和图片 4 的检索范围。

这种方法的优点是减少了人工干预，通过人机协同快速扩展种子样本，提升了对抗效率。然而，人工仍需高度介入，因此我们进一步开发了大模型黑库。

大模型黑库

大模型黑库基于多模态大模型构建，结合向量化检索库。它不仅包含负样本，还包含正样本。系统通过检索正负样本，利用大模型的判断能力，识别内容是否为垃圾信息，并给出原因。

大模型的优势在于对图片内容有更强的理解能力，但其核心挑战在于需要持续提升对抗能力，可能需要引入日迭代机制以保持其有效性。

总结 & 展望

在过去的一段时间内，我们在生态治理工作中已经初步完成了多模态理解能力和大模型应用能力的建设。目前，我们已经具备了 7B 到 8B 左右模型的能力，以及 Audio-Language（音频与语言）模态的处理能力。在应用层面，我们已经在生态大模型的策略链路中进行了初步应用，涉及内容管控、用户管控以及垃圾信息对抗等环节。

展望未来，我们计划在能力层面持续强化生态多模态理解能力，推进全模态能力建设，包括多尺寸模型的构建，提升 AIGC 的识别能力，并逐步实现理解和生成能力的统一。在应用方面，我们希望在 2025 年能够将大模型能力应用于生态治理的全链路，包括自动巡检、内容审核效率提升，以及开展红蓝军对抗等工作。