2024年大语言模型技术综述及企业级应用策略

摘要：大语言模型的训练流程通常分为预训练（Pre-training）和后训练（Post-training），其中后训练细分为监督微调（Supervised Fine-Tuning, SFT）、直接偏好优化（Direct Preference Optimization

一、2024年大语言模型的技术进展

（一）文本大语言模型的新进展

1. 训练方法及说明

大语言模型的训练流程通常分为预训练（Pre-training）和后训练（Post-training），其中后训练细分为监督微调（Supervised Fine-Tuning, SFT）、直接偏好优化（Direct Preference Optimization, DPO）、广义奖励政策优化（Generalized Reward Policy Optimization, GRPO）以及强化学习与验证回报（Reinforcement Learning with Verifiable Rewards, RLVR）。这些方法各有侧重，旨在提升模型在特定任务上的表现：

监督微调（SFT）：通过使用人工标注的数据对预训练模型进行微调，使其更好地适应具体的应用场景。SFT数据集可以是公开的、合成的或专门生成的数据，用于提高模型在特定任务上的性能。直接偏好优化（DPO）：利用成对比较的方式指导模型的学习过程，不仅考虑了模型输出的质量，还关注用户偏好，使模型能够产生更符合人类预期的结果。广义奖励政策优化（GRPO）：简化传统的PPO算法，去掉了价值函数部分，依靠多次采样的奖励来计算优势分数，减少了计算资源消耗的同时保持良好的性能。强化学习与验证回报（RLVR）：结合规则基础和模型基础的奖励机制，确保奖励信号的可靠性，避免因同时使用两种不同来源的奖励而导致的噪声问题，进而提升学习效率。

此外，还有一些辅助技术如模型平均化（Model Averaging）、拒绝采样（Rejection Sampling）以及针对数据清洗、分类、评分和语义去重等方面的处理，以保证训练数据的质量和多样性。

2. 具体案例

Llama3.1：使用迭代式的后训练方法，包含SFT、RM（奖励建模）、RS（拒绝采样）和DPO四个步骤。它构建了高质量的SFT数据，并通过多轮迭代不断积累新的偏好数据。每一轮都从头开始训练RM，而不是采用增量训练的方式。对于SFT，采用了405B参数的大模型，并且对高质量数据源进行了重复训练。DeepSeek-V3：后训练路径为SFT->GRPO，期间探索了从DeepSeek-R1蒸馏的方法、自我奖励机制和多标记预测的效果。该模型特别强调推理相关数据的处理，通过专家模型生成最终的SFT数据，确保回答既准确又简洁。非推理数据则由DeepSeek-V2.5生成并经过人工审核。TÜLU 3：在RLVR过程中发现同时使用可验证奖励和RM提供的奖励会引入额外噪声，因此选择了一种奖励机制进行优化。其训练策略避免了双重奖励带来的不稳定因素，确保了更稳定的性能表现。Qwen2.5：采取了SFT + Two-stage Reinforcement Learning的后训练路径，即先进行SFT再依次经过DPO和GRPO两个阶段。SFT阶段构建了一个大规模数据集，并实施了系统化的学习率衰减和梯度裁剪策略。DPO依赖规则生成正负样本对，并训练了大量的样本对。GRPO阶段则通过多个具有不同数据配比和对齐方法的模型进行采样，根据奖励分数方差决定提示词的处理顺序，优先处理方差较高的提示词以促进有效学习。

（二）多模态大语言模型的新突破

1. 构建多模态 LLM 的两种主要方法

（1）统一嵌入解码器架构：

特点：此方法使用单一解码器来处理所有类型的输入，包括文本和图像。图像首先被转换为与文本标记相同维度的嵌入向量。优势：易于实现，因为不需要对现有的LLM架构进行重大改动；可以同时处理多种模态的数据。

（2）跨模态注意力架构：

特点：采用交叉注意力机制，在注意力层中直接集成来自不同模态的数据嵌入。这种方法不会用额外的图像标记使输入上下文过载。优势：计算效率更高，并且如果冻结LLM参数，则能保持原始LLM的纯文本性能。

2. 图像编码器的作用和技术

预训练的视觉Transformer (ViT)：许多模型选择使用已经预训练好的ViT作为图像编码器，比如CLIP或OpenCLIP。这样的编码器可以直接将图像转化为特征表示。自定义图像编码器：某些模型，如Fuyu和Pixtral 12B，选择从头开始训练自己的图像编码器，以更好地适应特定的任务需求。线性投影模块：用于将图像块展平后的向量映射到与文本嵌入相匹配的维度上，以便两者可以在同一解码器中共同处理。

3. 训练过程

两阶段训练：多数多模态LLM遵循预训练和指令微调两个阶段。在预训练阶段，模型可能会先单独训练图像编码器或只更新投影层参数，随后在指令微调阶段允许整个模型参数的学习。混合策略：一些模型采用了更为复杂的训练策略，例如NVLM-H，它结合了统一嵌入解码器和跨模态注意力的优点。

4. 最新的多模态模型及它们的技术特点

Llama 3 系列：基于交叉注意力的方法，更新图像编码器而非语言模型参数，保留了纯文本功能。使用了从头开始预训练的ViT-H/14变体作为图像编码器，并且仅在每四个transformer块中添加一次cross-attention层。Molmo 和 PixMo：开源模型权重，还提供了开放的数据集和源代码。简化了训练流程，统一更新所有参数，包括基础LLM、连接器和图像编码器。NVLM：探索了三种不同的架构（仅解码器、交叉注意力、混合），其中混合模型尝试结合两种方法的优势。使用了Qwen2-72B-Instruct作为主干LLM，并引入了一个多层感知器作为投影层。Qwen2-VL：引入了“Naive Dynamic Resolution”机制，允许模型处理任意分辨率的图像。该模型通过修改后的ViT实现了原生分辨率输入，并进行了三阶段的训练。Pixtral 12B：支持可变图像大小，不依赖预训练的图像编码器，而是从头训练具有4亿个参数的编码器。MM1.5：提供多模态微调的方法论分析，侧重于统一嵌入Transformer架构，并进行了消融研究以评估数据混合和坐标标记的影响。Aria：提出了一种专家混合的多模态模型，完全从头开始训练LLM主干，并预训练LLM主干和视觉编码器。百川-Omni：采用了三阶段训练策略，利用SigLIP视觉编码器和AnyRes模块来处理高分辨率图像，虽然未明确指定LLM主干，但其设计强调了灵活性和高效性。

这些模型展示了多模态LLM领域的多样化发展路径，每个模型都试图解决特定的问题或优化某些方面的性能。随着研究的深入和技术的进步，我们可以期待未来会有更多创新出现，进一步推动人工智能领域的边界。

二、企业部署策略

企业可以通过公网API服务或私有化部署两种方式接入大语言模型。前者提供便捷性和持续更新，后者确保数据隐私保护和完全可控的操作环境。无论哪种方式，企业都需要构建一个融合各类模型的企业级接入平台，该平台应具备广泛的模型兼容性、多硬件平台支持、高性能推理引擎、分布式架构与高可用性、私有模型管理和安全机制、全面监控与运维支持以及易于集成与开发友好的特性。

三、企业级私有化平台的特点

（一）企业级构建大模型接入系统的能力需求

在企业级别构建一个用于接入和管理大模型的系统，应当具备以下关键能力：

1.广泛的模型兼容性与便捷加载

支持多种模型：能够适配并加载各种类型的预训练模型，包括但不限于文本生成、图像处理、语音识别等领域的最新模型。简化模型获取流程：集成主流模型托管平台（如Hugging Face、ModelScope），使用户可以轻松下载和更新模型权重。

2.多硬件平台支持

跨平台兼容性：确保系统可以在不同硬件平台上高效运行，包括但不限于英伟达GPU、英特尔CPU、AMD GPU以及国产芯片（如昇腾、海光）。优化资源利用：针对不同硬件特性进行针对性优化，最大化计算资源利用率。

3.高性能推理引擎

多后端切换：提供多种推理引擎选择（例如vLLM、SG-Lang、TensorRT-LLM），允许用户根据具体需求灵活调整，以满足对吞吐量、延迟等方面的性能要求。内置优化技术：集成KV Cache、Page Attention、持续批处理（Continuous Batching）、推测采样（Speculative Decoding）等先进优化手段，提升推理效率。

4.分布式架构与高可用性

集群管理：支持分布式部署，实现多节点协同工作，保证系统的可扩展性和容错性。自动恢复与无缝迁移：即使在部分节点故障的情况下，也能自动恢复服务，并且能够在不停机的情况下完成版本升级或配置更改。负载均衡与任务调度：合理分配计算任务，避免单点过载，提高整体响应速度和服务质量。

5.私有模型管理和安全机制

私有模型库：为用户提供安全的私有模型存储空间，保护敏感数据不被泄露。权限控制与审计追踪：实施严格的访问权限管理和操作记录保存，确保每个动作都有迹可循，便于后续审查和问题排查。

6.全面监控与运维支持

实时监控与告警：提供详尽的系统状态报告，包括链路指标、集群健康状况、模型性能等，及时发现潜在问题并发出警告。日志分析与故障诊断：积累丰富的日志信息，帮助快速定位故障原因，缩短修复时间。

7.易于集成与开发友好

API开放性：开放RESTful API接口，方便第三方应用对接，同时也支持主流编程语言的SDK，降低集成难度。工具链整合：紧密配合各类AI开发框架（如Langchain、llama_index、Dify、FastGPT），作为统一的模型推理服务平台，简化开发者的工作流程。