摘要:Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。 R1-Zero的训练,证明了仅通过RL,无SFT,大模型也可以有强大的推理能力。在AIME 2024上,R1-Zero的pass@1指标 从15.6%提升至71.0%,经
R1-Zero验证了大模型仅通过RL就可实现强大推理能力
Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。 R1-Zero的训练,证明了仅通过RL,无SFT,大模型也可以有强大的推理能力。在AIME 2024上,R1-Zero的pass@1指标 从15.6%提升至71.0%,经过投票策略(majority voting)后更是提升到了86.7%,与OpenAI-o1-0912相当。 架构思路:没有任何SFT数据的情况下,通过纯粹的强化学习。 算法应用:直接在DeepSeek-V3-Base模型上应用GRPO算法进行强化学习训练。 奖励机制:使用基于规则的奖励机制,包括准确性奖励和格式奖励,来指导模型的学习。 训练模板:采用了简洁的训练模板,要求模型首先输出推理过程(置于标签内),然后给出最终答案(置于标签内)。
DeepSeek-R1:长CoT数据微调基础上应用强化学习
架构思路:在DeepSeek-V3-Base模型的基础上,经历两次微调 和两次强化学习得到R1模型。 Step 1.冷启动阶段:使用数千个高质量的长Cot人工标注样本 对DeepSeek-V3-Base模型进行微调,作为强化学习的初始模型。 Step 2.面向推理的强化学习:在冷启动阶段之后,R1采用了 与R1-Zero类似的强化学习训练,但针对推理任务进行了特别 优化。为了解决训练过程中可能出现的语言混杂问题,R1引入 了语言一致性奖励,该奖励根据CoT中目标语言单词的比例来 计算。 Step 3.拒绝采样与监督微调:当面向推理的强化学习收敛后, R1利用训练好的RL模型进行拒绝采样,生成新的SFT数据。 Step 4.面向全场景的强化学习:在收集了新的SFT数据后,R1 会进行第二阶段的强化学习训练,这一次,训练的目标不再局 限于推理任务,而是涵盖了所有类型的任务。此外,R1采用了 不同的奖励信号和提示分布,针对不同的任务类型进行了优化。
R1模型推理任务表现出色
R1在推理任务上表现出色,特别是在AIME 2024(美国数学邀请赛)、MATH-500(数学竞赛题)和Codeforces(编程 竞赛)等任务上,取得了与OpenAI-o1-1217相媲美甚至超越的成绩。在MMLU(90.8%)、MMLU-Pro(84.0%)和GPQA Diamond(71.5%)等知识密集型任务基准测试中,性能显著超越了DeepSeek-V3模型。在针对长上下文理解能力的 FRAMES数据集上,R1的准确率达到了82.5%,优于DeepSeek-V3模型。在开放式问答任务AlpacaEval 2.0和Arena-Hard 基准测试中,R1分别取得了87.6%的LC-winrate和92.3%的GPT-4-1106评分,展现了其在开放式问答领域的强大能力。
通过蒸馏实现推理能力迁移
DeepSeek团队进一步探索了将R1的推理能力蒸馏到更小的模型中的可能性。他们使用R1生成的800K数据,对Qwen和 Llama系列的多个小模型(1.5B、7B、8B、14B、32B、70B)进行了微调。经过R1蒸馏的小模型,在推理能力上得到了显 著提升,甚至超越了在这些小模型上直接进行强化学习的效果。推理成本来看,R1模型价格只有OpenAI o1模型的几十分之一。训练成本来看,DeepSeek-V3在一个配备2048个NVIDIA H800 GPU的集群上进行训练,预训练阶段在不到两个月内完成,并消耗了2664K GPU小时,总训练成本为557.6万美元。
KIMI 1.5:最好的short-CoT模型,出色的推理创新
2025年1月20日,kimi1.5版本模型发布,这是继2024年11月发布 k0-math 数学模型,12月发布 k1 视觉思考模型之后,Kimi 连续第三个月带来 k 系列强化学习模型的重磅升级。 从基准测试成绩看,k1.5 多模态思考模型实现了 SOTA (state-of-the-art)级别的多模态推理和通用推理能力。 在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。 在 long-CoT 模式下,Kimi k1.5 的数学、代码、多模态推理能力,也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。这 应该是全球范围内,OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。
KIMI 1.5:四大创新
Kimi k1.5 通过几个关键技术实现了强化学习(RL)在大型语言模型(LLMs)中的有效扩展和性能提升: 1)长上下文扩展:通过将RL的上下文窗口扩展到128k,Kimi k1.5能够处理更长的文本序列,从而在多个任务上提升性能。在推理过程 中,也保证了更长的思维链,可以进行更多步骤,更深入的思考。 2)改进的策略优化:采用在线镜像下降法的变体进行策略优化,并结合有效的采样策略、长度惩罚和数据配方优化,进一步提升了模 型的训练效果,进一步节约算力和思考时间。 3)简化的RL框架:通过长上下文扩展和改进的策略优化,Kimi k1.5建立了一个简化的RL学习框架,使得模型能够在不依赖复杂技术的 情况下实现强大的性能,优化算力。 4)多模态处理能力:Kimi k1.5能够同时处理文本和视觉数据,展现了在多模态数据上进行联合推理的能力。(对比Deepseek R1仅为 纯语言模型)
KIMI 1.5:Partial rollout的RL框架创新
Kimi k1.5的推理框架分为核心几块:1)Rollout 模块:理解为推理过程中的试错者和推演者,不断推演不同可能性,从而找到最优解。 可以想象成一群工人在生产线上进行实际的操作记录下每一步的结果。根据当前的模型权重生成一系列的决策路径。 2)主管(Master)模块:理解为指挥中心。负责协调和管理整个训练过程,接收来自Rollout模块的轨迹数据,评估模型的表现,并向 Trainer Workers发送训练数据。主管还负责管理Replay Buffer(缓冲区),确保推理数据的高效利用。 3)训练模块:负责根据Rollout模块提供的数据来训练模型。使用策略模型(Policy Model)和参考模型(Reference Model)来计算梯 度更新(gradient update),从而优化模型的性能。 4)奖励模型和缓冲区:前者是 “裁判”,负责评估模型表现并给出奖励信号。后者是“记忆库”,用于存储Rollout生成的轨迹数据。 Partial Rollout创新:在Rollout模块的推理中,不需要每次都从头开始,可以从缓冲区中读取之前的轨迹后继续推理。类似于1)下棋 中,每次只需要思考最关键的步骤,而不用思考前面简单的步骤。2)设计方案时,可以复用地基的设计,只考虑顶层的不同设计方案。
阿里千问发布Qwen2.5系列模型,性能水平顶尖
2024年09月19日,阿里发布Qwen2.5系列,包括0.5B,1.5B,3B,7B,14B,32B以及72B,以及专门针对编程的Qwen2.5- Coder和数学的Qwen2.5-Math模型。Qwen2.5所有系列模型都在18Ttokens的数据集上进行了预训练,相较于Qwen2, Qwen2.5获得了更多的知识(MMLU:85+),并在编程和数学方面有了大幅提升。 用于编程的Qwen2.5-Coder和用于数学的Qwen2.5-Math,相比其前身CodeQwen1.5和Qwen2-Math有了实质性的改进: Qwen2.5-Coder在包含5.5Ttokens编程相关数据上进行了训练,使即使较小的编程专用模型也能在编程评估基准测试中 表现出媲美大型语言模型的竞争力。同时,Qwen2.5-Math支持中文和英文,并整合了多种推理方法,包括CoT (ChainofThought)、PoT(ProgramofThought)和TIR(Tool-IntegratedReasoning)。
Qwen2.5预训练阶段构建了更高质量数据集及专门的上下文训练方式
在预训练方面,Qwen2.5通过多种方式,进行高质量数据集构建,例如更好的数据过滤:引入 Qwen2-Instruct 模型对 数据进行把关,不仅大幅提升了高质量训练数据的留存比例,还能更高效地筛除多语种低质样本。此外还使用Qwen2.5- Math和Qwen2.5-Coder的训练数据、借助Qwen2-72B-Instruct与Qwen2Math-72B-Instruct模型催生高质量合成数据以及 启用Qwen2-Instruct模型对不同领域的内容进行分类梳理与均衡调配。Qwen2.5将高质量的预训练数据集从之前的 7 万 亿个 token 扩展到了 18 万亿个 token。
预训练上下文方面,通过两阶段调节上下文长度,进而达到最优训练效果。Qwen2.5还采用了YARN 和双块注意力 DCA, 实现了序列长度容量四倍的飞跃式增长,使得 Qwen2.5-Turbo 能够从容处理多达 100 万个token的序列,而其他模型 也具备处理多达 131072 个token序列的能力。
Qwen2.5-Max上线,性能超越DeepSeek V3
阿里千问发布大规模MoE模型Qwen2.5-Max,在超过20万亿个token上进行预训练,并使用精选的监督微调 (SFT) 和从人 类反馈中强化学习 (RLHF) 方法进行了进一步的后训练。通过在包括 MMLU-Pro(通过大学级问题测试知识)、 LiveCodeBench(评估编码能力)、LiveBench(全面测试一般能力)和 Arena-Hard(近似人类偏好)上进行测试, Qwen2.5-Max在大多数基准测试中都表现出了显著的优势,性能全面超越DeepSeek V3。 Qwen2.5-max多模态能力方面,在联网搜索、代码、游戏制作方面均有较好表现。
低成本缘由一:高度稀疏的模型架构
DeepSeekMoE在专家模型的设计上引入了共享专家 + 路由专家的架构,并采用无辅助损失的负载均衡策略,使得计算资 源分配更加高效。DeepSeekMoE由256个路由专家组成,每个token在路由过程中会选择8个专家,其中共享专家始终被选 中,其余7个专家通过门控机制选择。DeepSeek-V3共包含671B个参数,其中每个token激活37B个参数,训练数据量为 14.8Ttoken。同时额外引入了一种无辅助损失的负载平衡策略以减轻因确保负载平衡而导致的性能下降。
Deepseek V2模型参数量达到236B,同时由于模型小专家混合的特性,模型每个token在推理时的激活参数为21B,可以实 现高推理速度。模型的核心优化点多头隐式注意力显著降低了训练和推理成本。在成本效率方面,相比V1的稠密模型, V2模型节约了42.5%的训练成本,减少了推理时93.3%的KV-cache显存占用,将生成的吞吐量也提升到了原来的5.76倍。
低成本缘由二:FP8混合精度训练框架
Deepseek提出了一种用FP8训练的混合精度框架。在不同计算步骤中使用 FP8、BF16、FP32 三种不同的数值格式,以在 计算效率和数值稳定性之间取得平衡。大多数计算密集型操作以FP8进行,与线性算子相关的所有三个核心计算内核操作, 即Fprop(前向传播)、Dgrad(激活反向传播)和Wgrad(权重反向传播)均以FP8执行,而少数关键操作则策略性地保 持其原始数据格式例如嵌入模块、输出头、MoE门控模块、归一化算子和注意力算子,以平衡训练效率和数值稳定性。
为了实现混合精度FP8训练,deepseek引入了多种策略来提升低精度训练的准确性,其中包括细粒度量化、提高累加精度、 尾数优先于指数、在线量化等策略。细粒度量化的办法帮助FP8精度实现训练,传统的方法基于整个张量进行缩放,而细 粒度量化则采用更小的分组单位,使得量化过程能够更好地适应离群值,从而提高训练的稳定性和精度。
低成本缘由三:流水线并行策略提升训练效率
DeepSeek-V3采用了16路管道并行(PP)、跨越8个节点的64路专家并行(EP)以及ZeRO-1数据并行(DP)。
DualPipe是一种新型的流水线并行方法,旨在减少计算和通信之间的等待时间,提高训练效率。传统流水线并行方法的 计算和通信比率通常接近 1:1,这意味着一半的时间可能被通信占据,导致GPU资源利用率低下。DualPipe通过计算-通 信重叠来隐藏通信开销,使得模型在大规模分布式环境下的训练更加高效。在DualPipe中,前向传播的计算任务和反向 传播的计算任务被重新排序,使它们能够互相重叠。具体来说,DualPipe 将前向传播和反向传播的不同计算阶段重新排 列,并手动调整GPU计算单元在通信和计算之间的分配比例。
低成本缘由四:跨节点无阻通信设计
Deepseek高效配置专家分发与跨节点通信,实现最优效率。跨节点的GPU通过InfiniBand(IB)完全互连,节点内的通 信则通过 NVLink 处理。NVLink提供160 GB/s的带宽,大约是IB(50 GB/s)的3.2倍。为了有效利用IB和NVLink的不同 带宽,将每个token分发的节点数限制为最多4个,从而减少IB流量。具体而言每个token可以高效地选择每个节点平均 3.2个专家,而不会产生NVLink的额外开销。
Deepseek采用了定制的PTX(并行线程执行)指令,并自动调整通信块大小,这显著减少了L2缓存的使用和对其他 SM 的干扰。在模型训练的分发和合并过程中,通过warp专业化技术,并将20个SM划分为10个通信通道,实现了最佳的计算 和通信资源配比。
低成本缘由五:多token预测
DeepSeek-V3通过多token预测(MTP)技术不仅预测下一个token,还预测接下来的2个token,第二个token预测的接受率 在不同生成主题中介于85%到90%之间。 一方面,多token预测目标增加了训练信号的密度,可能提高数据效率。另一方面,多token预测可能使模型能够预先规 划其表示,以更好地预测未来token。
来源:报告研究所