去中心化训练更进一步,全球首个分布式强化学习训练的320亿参数

360影视 动漫周边 2025-05-15 18:11 1

摘要:去年我们曾报道了 Prime Intellect 团队发布的全球首个去中心化训练的 10B 级别模型 INTELLECT-1,它首次验证了跨越广阔地域、利用分布式 GPU 资源训练大规模语言模型的可能性。时隔一年,INTELLECT-2 也终于来了,这是一款参

去年我们曾报道了 Prime Intellect 团队发布的全球首个去中心化训练的 10B 级别模型 INTELLECT-1, 它首次验证了跨越广阔地域、利用分布式 GPU 资源训练大规模语言模型的可能性 。时隔一年,INTELLECT-2 也终于来了,这是一款参数规模达到 320 亿的更为强大的推理模型,其核心亮点在于, 它是全球首个通过完全异步的强化学习( RL,Reinforcement Learning)范式,在一个由全球贡献者组成的动态、异构且无需许可的计算网络中成功训练出来的模型, 让去中心化的 AI 训练又达到了新的高度。

专为全球分布式、异步强化学习设计的技术栈

去年发布的 INTELLECT-1 使用横跨三大洲的 112 块 GPU,基于 DeepMind 提出的 DiLoCo(Distributed Low-Communication, 分布式低通信)框架的复现与扩展 OpenDiLoCo 进行训练,成功验证了在广域网络下进行大规模分布式训练的可行性。而 INTELLECT-2 则进一步将目光投向了强化学习,同时模型参数规模也从 10B 跃升至 320B。

实际上,强化学习固有的特性使其天然就适合异步和去中心化设置。其在本质上更具异步性——政策更新可以在旧版本上生成的数据上进行训练,且不需要像监督学习那样频繁的参数同步。 特别是在近期兴起的“测试时计算”(test-time compute scaling)范式中,模型在推理过程中生成长序列进行推理,这些计算密集型操作可以在分散节点上高效执行,随后只需要将结果(而非大量中间状态)传回进行验证和训练。正是这种特性使得强化学习成为连接全球分布式计算资源的理想方法。

INTELLECT-2 专为全球分布式、异步强化学习设计了一套完整技术栈,团队从零开始构建了多个关键组件,以应对在异构、不可靠网络环境下进行大规模 RL 训练的挑战。

图丨INTELLECT-2 分布式强化学习训练基础设施(来源:Prime Intellect)

其核心框架 PRIME-RL 地将强化学习中的推理生成、模型训练和策略权重广播三个环节进行解耦,使得训练能在异构且地理位置分散的节点上完全异步地进行。

在训练端,PRIME-RL 采用 PyTorch FSDP2 技术对模型相关状态进行分片,降低单节点显存需求,并异步处理推理节点生成的 rollout 数据,有效应对策略滞后问题。推理端则利用 vLLM 框架进行 rollout 生成,并通过优化手段(如增量哈希激活值、CPU 与 GPU 并行处理)将验证证明的生成开销降至极低,同时通过“步骤计数器”机制确保与训练进度的同步。

为了在去中心化环境中高效、可靠地分发最新的策略模型权重,团队构建了构建了 Shardcast——一个通过基于 HTTP 的树状拓扑网络分发大文件的库。

它构建了一个类似 CDN 的中继服务器网络,将训练主服务器产生的检查点分片并以流水线方式流式传输,允许推理节点在完整检查点可用前即开始下载,显著减少等待延迟。SHARDCAST 通过 IP 速率限制、动态防火墙规则、基于预期的概率性服务器采样(实现负载均衡与最大化吞吐量)以及 SHA-256 校验和比对等多重机制,确保了权重广播的安全、高效与完整性。

图丨Shardcast 概述(来源:Prime Intellect)

由于推理节点是无需许可且不可信的,验证其计算真实性至关重要。为此,Prime Intellect 设计了 TOPLOC (局部敏感哈希的无信任可验证推理方案)和 Prime Intellect 协议 。

TOPLOC 允许受信任的验证者节点高效审计推理节点生成的加密承诺,确保其计算的正确性,并通过采样检查(如终止检查、令牌采样检查)和健全性检查(如固定数据采样、值范围检查)进一步保障数据质量。

Prime Intellect 协议则扮演了整个去中心化网络的“大脑”,通过 Rust 实现的去中心化账本、工作者软件、发现服务和协调器,实现了对节点的自动注册、硬件检查、心跳监控、任务调度与分发(采用拉取模式)、以及贡献记录等功能,构建了一个类似于去中心化 SLURM 的系统,有效协调全球计算资源。

受益于 Qwen 和 DeepSeek 的模型训练

INTELLECT-2 的训练基于 QwQ-32B 模型,并很大程度上遵循了 DeepSeek-R1 的 GRPO(Group Relative Policy Optimization)训练方法,但进行了多项关键修改。

训练始于一个包含 28.5 万个可验证数学与编码任务的数据集(来自 NuminaMath-1.5、Deepscaler 和 SYNTHETIC-1)。它采用双重目标:二元任务奖励(正确为 1,错误为 0)和长度奖励,后者使用户能够在推理时控制“思考令牌”的数量。这种设计允许模型学习在解决数学和编码问题的同时,根据用户指定的思考长度控制其推理过程,提供了灵活性和可控性。

为了适应去中心化环境并提高效率,训练采用了多步异步强化学习。实验表明,即使存在多达四步的异步延迟,模型性能也能与同步基线持平,证明了在轻微离策略数据上训练的有效性。数据过滤在其中发挥了重要作用,团队结合了离线过滤(预先筛选掉对基模型而言过易或过难的问题)和在线过滤(确保训练批次中包含足够数量的具有非零优势值的样本),这不仅提升了学习效率,也间接增加了对去中心化推理节点的需求。

图丨同步、集中式单步异步和去中心化两步异步强化学习的比较(来源:Prime Intellect)

为了应对训练过程中(尤其是训练大型模型时)常见的损失尖峰和梯度爆炸等不稳定性问题,团队引入了双边令牌概率比率裁剪(Two-Sided GRPO Clipping)机制,为负优势情况下的概率比率添加上界,显著缓解了传统 PPO 类算法中可能出现的巨大损失值和梯度更新问题。

团队还观察到,随着训练进行,即使在没有立即尖峰的情况下,梯度范数也会逐渐但持续增加。这种现象似乎与模型大小相关,在更大的架构中更为明显。他们发现, 采用激进的梯度裁剪(阈值低至 0.05-0.1)能有效缓解稳定性问题,而不显著阻碍收敛,在稳定性和训练效率之间取得了平衡。

图丨在 MATH 数据集上训练的不同模型规模的梯度范数和裁剪率不断上升(来源:Prime Intellect)

那么这种训练的效率究竟如何呢?团队采用两种设置进行了实验:

TARGET-SHORT: 使用较短目标长度(1000、2000、3000、4000)训练高效推理模型

TARGET-LONG: 使用较长目标长度(2000、4000、6000、8000、10000)的主要运行

在计算利用率方面,SHARDCAST 向所有节点广播权重(62GB)平均耗时 14 分钟,对应约 590Mb/s 的带宽吞吐量。连接性好的节点能更早收到检查点并开始生成数据。

在 TARGET-SHORT 设置中,首个数据文件在广播完成约 10 分钟后提交,由于 TOPLOC 的高效验证(通常 1 分钟内完成),约 22 分钟后即可收集到足够用于一个批次的已验证样本。

TARGET-LONG 场景则需约 29 分钟。两个实验中,训练与推理的 FLOPs 比率平均为 4.5 倍,即去中心化推理节点消耗的计算量远大于训练节点。这种异步设置有效实现了计算与通信(广播、推理生成、验证)的重叠,最大限度减少了训练 GPU 的空闲时间。

从奖励轨迹来看,两个实验均显示模型在解决数学和编码问题的能力上(任务奖励)取得了显著提升。长度惩罚也有所减少,但收敛速度慢于预期,表明模型在实验时间内未能完全精确地学会遵循思考预算。

在多个标准推理基准测试中, INTELLECT-2 相较于其基模型 QwQ-32B,在数学和编码能力上有所提升,但在更通用的指令遵循任务上略有下降, 这可能是因为其训练数据仅专注于数学和编码,而非更通用的指令遵循任务。

图丨基准测试结果(来源:Prime Intellect)

为 AI 的民主化和开源发展开辟新道路

不过,相比起模型的能力提升,INTELLECT-2 更重要的意义在于进一步拓展了分布式训练的边界,证明了在全球范围内,通过无需许可的贡献者网络进行复杂的强化学习以及更大规模的模型是完全可行的。这为 AI 的民主化和开源发展开辟了新的道路。

这一探索方向也获得了资本市场的积极响应。继 2024 年早些时候由 Distributed Global 和 CoinFund 共同领投的 550 万美元种子轮融资后,最近他们又成功完成了由 Founders Fund 和 Menlo Ventures 领投,并有 Andrej Karpathy、Clem Delangue 和 Emad Mostaque 等 AI 领域先驱人物参投的 1 , 500 万美元融资,使其总融资额超过 2 , 000 万美元。

未来,Prime Intellect 团队计划在现有基础上持续深耕。他们将致力于提高推理与训练的计算比率,进一步发挥去中心化推理的优势;探索为推理模型引入工具调用能力,以增强其实际应用价值;并积极推动众包 RL 任务和环境的建设,构建更加丰富和多样化的训练生态。

同时,模型合并技术与 DiLoCo 框架在强化学习场景下的应用潜力也将是他们未来研究的重点方向,这有望将去中心化训练的规模和效率再提升一个数量级。

来源:时空探险家

相关推荐