一、2024年大语言模型的技术进展摘要:大语言模型的训练流程通常分为预训练(Pre-training)和后训练(Post-training),其中后训练细分为监督微调(Supervised Fine-Tuning, SFT)、直接偏好优化(Direct Preference Optimization
(一)文本大语言模型的新进展
1. 训练方法及说明
大语言模型的训练流程通常分为预训练(Pre-training)和后训练(Post-training),其中后训练细分为监督微调(Supervised Fine-Tuning, SFT)、直接偏好优化(Direct Preference Optimization, DPO)、广义奖励政策优化(Generalized Reward Policy Optimization, GRPO)以及强化学习与验证回报(Reinforcement Learning with Verifiable Rewards, RLVR)。这些方法各有侧重,旨在提升模型在特定任务上的表现:
监督微调(SFT):通过使用人工标注的数据对预训练模型进行微调,使其更好地适应具体的应用场景。SFT数据集可以是公开的、合成的或专门生成的数据,用于提高模型在特定任务上的性能。直接偏好优化(DPO):利用成对比较的方式指导模型的学习过程,不仅考虑了模型输出的质量,还关注用户偏好,使模型能够产生更符合人类预期的结果。广义奖励政策优化(GRPO):简化传统的PPO算法,去掉了价值函数部分,依靠多次采样的奖励来计算优势分数,减少了计算资源消耗的同时保持良好的性能。强化学习与验证回报(RLVR):结合规则基础和模型基础的奖励机制,确保奖励信号的可靠性,避免因同时使用两种不同来源的奖励而导致的噪声问题,进而提升学习效率。此外,还有一些辅助技术如模型平均化(Model Averaging)、拒绝采样(Rejection Sampling)以及针对数据清洗、分类、评分和语义去重等方面的处理,以保证训练数据的质量和多样性。
2. 具体案例
Llama3.1:使用迭代式的后训练方法,包含SFT、RM(奖励建模)、RS(拒绝采样)和DPO四个步骤。它构建了高质量的SFT数据,并通过多轮迭代不断积累新的偏好数据。每一轮都从头开始训练RM,而不是采用增量训练的方式。对于SFT,采用了405B参数的大模型,并且对高质量数据源进行了重复训练。DeepSeek-V3:后训练路径为SFT->GRPO,期间探索了从DeepSeek-R1蒸馏的方法、自我奖励机制和多标记预测的效果。该模型特别强调推理相关数据的处理,通过专家模型生成最终的SFT数据,确保回答既准确又简洁。非推理数据则由DeepSeek-V2.5生成并经过人工审核。TÜLU 3:在RLVR过程中发现同时使用可验证奖励和RM提供的奖励会引入额外噪声,因此选择了一种奖励机制进行优化。其训练策略避免了双重奖励带来的不稳定因素,确保了更稳定的性能表现。Qwen2.5:采取了SFT + Two-stage Reinforcement Learning的后训练路径,即先进行SFT再依次经过DPO和GRPO两个阶段。SFT阶段构建了一个大规模数据集,并实施了系统化的学习率衰减和梯度裁剪策略。DPO依赖规则生成正负样本对,并训练了大量的样本对。GRPO阶段则通过多个具有不同数据配比和对齐方法的模型进行采样,根据奖励分数方差决定提示词的处理顺序,优先处理方差较高的提示词以促进有效学习。(二)多模态大语言模型的新突破
1. 构建多模态 LLM 的两种主要方法
(1)统一嵌入解码器架构:
特点:此方法使用单一解码器来处理所有类型的输入,包括文本和图像。图像首先被转换为与文本标记相同维度的嵌入向量。优势:易于实现,因为不需要对现有的LLM架构进行重大改动;可以同时处理多种模态的数据。(2)跨模态注意力架构:
特点:采用交叉注意力机制,在注意力层中直接集成来自不同模态的数据嵌入。这种方法不会用额外的图像标记使输入上下文过载。优势:计算效率更高,并且如果冻结LLM参数,则能保持原始LLM的纯文本性能。2. 图像编码器的作用和技术
预训练的视觉Transformer (ViT):许多模型选择使用已经预训练好的ViT作为图像编码器,比如CLIP或OpenCLIP。这样的编码器可以直接将图像转化为特征表示。自定义图像编码器:某些模型,如Fuyu和Pixtral 12B,选择从头开始训练自己的图像编码器,以更好地适应特定的任务需求。线性投影模块:用于将图像块展平后的向量映射到与文本嵌入相匹配的维度上,以便两者可以在同一解码器中共同处理。3. 训练过程
两阶段训练:多数多模态LLM遵循预训练和指令微调两个阶段。在预训练阶段,模型可能会先单独训练图像编码器或只更新投影层参数,随后在指令微调阶段允许整个模型参数的学习。混合策略:一些模型采用了更为复杂的训练策略,例如NVLM-H,它结合了统一嵌入解码器和跨模态注意力的优点。4. 最新的多模态模型及它们的技术特点
Llama 3 系列:基于交叉注意力的方法,更新图像编码器而非语言模型参数,保留了纯文本功能。使用了从头开始预训练的ViT-H/14变体作为图像编码器,并且仅在每四个transformer块中添加一次cross-attention层。Molmo 和 PixMo:开源模型权重,还提供了开放的数据集和源代码。简化了训练流程,统一更新所有参数,包括基础LLM、连接器和图像编码器。NVLM:探索了三种不同的架构(仅解码器、交叉注意力、混合),其中混合模型尝试结合两种方法的优势。使用了Qwen2-72B-Instruct作为主干LLM,并引入了一个多层感知器作为投影层。Qwen2-VL:引入了“Naive Dynamic Resolution”机制,允许模型处理任意分辨率的图像。该模型通过修改后的ViT实现了原生分辨率输入,并进行了三阶段的训练。Pixtral 12B:支持可变图像大小,不依赖预训练的图像编码器,而是从头训练具有4亿个参数的编码器。MM1.5:提供多模态微调的方法论分析,侧重于统一嵌入Transformer架构,并进行了消融研究以评估数据混合和坐标标记的影响。Aria:提出了一种专家混合的多模态模型,完全从头开始训练LLM主干,并预训练LLM主干和视觉编码器。百川-Omni:采用了三阶段训练策略,利用SigLIP视觉编码器和AnyRes模块来处理高分辨率图像,虽然未明确指定LLM主干,但其设计强调了灵活性和高效性。这些模型展示了多模态LLM领域的多样化发展路径,每个模型都试图解决特定的问题或优化某些方面的性能。随着研究的深入和技术的进步,我们可以期待未来会有更多创新出现,进一步推动人工智能领域的边界。
二、企业部署策略企业可以通过公网API服务或私有化部署两种方式接入大语言模型。前者提供便捷性和持续更新,后者确保数据隐私保护和完全可控的操作环境。无论哪种方式,企业都需要构建一个融合各类模型的企业级接入平台,该平台应具备广泛的模型兼容性、多硬件平台支持、高性能推理引擎、分布式架构与高可用性、私有模型管理和安全机制、全面监控与运维支持以及易于集成与开发友好的特性。
三、企业级私有化平台的特点(一)企业级构建大模型接入系统的能力需求
在企业级别构建一个用于接入和管理大模型的系统,应当具备以下关键能力:
1.广泛的模型兼容性与便捷加载
支持多种模型:能够适配并加载各种类型的预训练模型,包括但不限于文本生成、图像处理、语音识别等领域的最新模型。简化模型获取流程:集成主流模型托管平台(如Hugging Face、ModelScope),使用户可以轻松下载和更新模型权重。2.多硬件平台支持
跨平台兼容性:确保系统可以在不同硬件平台上高效运行,包括但不限于英伟达GPU、英特尔CPU、AMD GPU以及国产芯片(如昇腾、海光)。优化资源利用:针对不同硬件特性进行针对性优化,最大化计算资源利用率。3.高性能推理引擎
多后端切换:提供多种推理引擎选择(例如vLLM、SG-Lang、TensorRT-LLM),允许用户根据具体需求灵活调整,以满足对吞吐量、延迟等方面的性能要求。内置优化技术:集成KV Cache、Page Attention、持续批处理(Continuous Batching)、推测采样(Speculative Decoding)等先进优化手段,提升推理效率。4.分布式架构与高可用性
集群管理:支持分布式部署,实现多节点协同工作,保证系统的可扩展性和容错性。自动恢复与无缝迁移:即使在部分节点故障的情况下,也能自动恢复服务,并且能够在不停机的情况下完成版本升级或配置更改。负载均衡与任务调度:合理分配计算任务,避免单点过载,提高整体响应速度和服务质量。5.私有模型管理和安全机制
私有模型库:为用户提供安全的私有模型存储空间,保护敏感数据不被泄露。 权限控制与审计追踪:实施严格的访问权限管理和操作记录保存,确保每个动作都有迹可循,便于后续审查和问题排查。6.全面监控与运维支持
实时监控与告警:提供详尽的系统状态报告,包括链路指标、集群健康状况、模型性能等,及时发现潜在问题并发出警告。日志分析与故障诊断:积累丰富的日志信息,帮助快速定位故障原因,缩短修复时间。7.易于集成与开发友好
API开放性:开放RESTful API接口,方便第三方应用对接,同时也支持主流编程语言的SDK,降低集成难度。工具链整合:紧密配合各类AI开发框架(如Langchain、llama_index、Dify、FastGPT),作为统一的模型推理服务平台,简化开发者的工作流程。(二)方法的优势
采用上述方法构建的企业级大模型接入系统具有以下显著优势:
1. 增强灵活性与适应性:通过广泛支持多种模型和技术栈,企业可以根据实际业务需求迅速调整策略,不受限于单一供应商或特定技术路径。
2. 提升效率与成本效益:借助高效的推理引擎和优化技术,减少了不必要的计算开销,降低了运营成本;同时,分布式的架构设计有助于更好地应对高峰期流量冲击,保障服务质量。
3. 强化安全性与合规性:完善的权限管理体系和私有模型库功能,确保了敏感信息的安全存放与合法使用,符合行业标准和法规要求。
4. 促进创新与发展:开放的API接口和良好的生态兼容性,鼓励内部团队及外部合作伙伴共同探索新应用场景,加速技术创新步伐。
5. 简化运维与管理复杂度:自动化运维工具和直观的监控界面,减轻了IT人员日常维护负担,提高了故障响应速度,使得企业能够更加专注于核心业务发展而非底层技术细节。
综上所述,一个精心设计的企业级大模型接入系统不仅能为企业带来技术上的领先优势,还能有效支撑其长期战略目标的实现。更重要的是简单、简单、简单,还有便宜、便宜、便宜。
来源:未来探秘者