grpo资讯_360影视

苹果出手！改进GRPO，让dLLM也能高效强化学习

不同于基于 Transformer 的自回归式语言模型，dLLM 基于掩码式扩散模型（masked diffusion model / MDM），此前我们已经报道过 LLaDA 和 Dream 等一些代表案例，最近首款实现商业化的 dLLM 聊天机器人 Mer

苹果 token 掩码 grpo dllm 2025-06-27 14:32 5

强化学习如何帮助大语言模型实现自我进化

大型语言模型（LLMs）已经在代码生成领域取得了显著进步，但生成的代码虽然功能正确，却往往存在效率低下的问题。这一研究缺口正是由南洋理工大学、新加坡国立大学、香港大学、西安交通大学和字节跳动的联合研究团队着手解决的。在最近发表的论文《Afterburner:

模型语言 dpo venus grpo 2025-06-04 16:11 6

SFT在帮倒忙？新研究：直接进行强化学习

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调 + 强化学习」的两阶段训练范式：先通过推理数据进行监督微调（SFT），再通过强化学习（RL）进一步提升性能。这种成功模式启发了研究人

模态研究 rl grpo sft 2025-06-02 02:57 7

突破信息茧房，大模型迈向自主进化

模型独立设计旨在提升自身能力的新算法，并通过持续应用和评估算法实现渐进式增强。提升明显，GSM8k基准测试较初始模型提升6%，超越人工设计方法4.3%；跨领域模型表现提升7.4%，证明算法具有强迁移性。

模型 llm 自主重整化 grpo 2025-06-01 17:01 6

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

论文 deepseek 长文万字 grpo 2025-05-25 18:30 8

一文讲清怎么利用Python实现一个类似DeepSeek的GRPO算法

首先，文章引导读者检查其AI开发环境，确保安装了必要的软件如Python及PyTorch等，并查看Transformer版本信息。接着详细解释了算法、强化学习算法以及策略优化的强化学习算法的基本概念及其相互关系，强调了GRPO在复杂任务中的优势。通过定义策略网

算法 python deepseek grpo grpo算法 2025-05-15 19:45 10

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别

随着大模型（LLMs）的快速发展和可集成工具的爆炸增长，AI 智能助手在日常生活中可提供的便利越来越多，不仅包括传统任务型对话中订机票、查询天气等助理能力，还增加了无以计数的 AI 能力，如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意

范式数据集跨语言泛化 grpo 2025-05-17 02:08 9

泛化性涨47%！首个意图检测奖励范式，AI工具时代意图识别新解法

随着大模型（LLMs）的快速发展和可集成工具的爆炸增长，AI 智能助手在日常生活中可提供的便利越来越多，不仅包括传统任务型对话中订机票、查询天气等助理能力，还增加了无以计数的 AI 能力，如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意

范式数据集 rcs 泛化 grpo 2025-05-16 15:44 9

语音合成突破：F5R-TTS首次实现非自回归模型的GRPO优化

在人工智能技术日新月异的今天，语音合成（TTS）领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音，更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。这一突破性进展的背后，是大规模语音数据的积累和大模型技

模型 wer 语音合成 grpo grpo优化 2025-04-19 21:01 17

F5R-TTS首次实现非自回归模型的GRPO优化零样本克隆性能显著提升

在人工智能技术日新月异的今天，语音合成（TTS）领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音，更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。这一突破性进展的背后，是大规模语音数据的积累和大模型技术的

模型克隆 grpo 样本克隆 grpo优化 2025-04-19 14:32 10

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

不同于 PPO（近端策略优化），GRPO 是直接根据组分数估计基线，因此消除了对 critic 模型的需求。但是，这又需要为每个问题都采样一组完成结果，进而让训练过程的计算成本较高。

厦大快如闪电 grpo cppo gsm8k 2025-04-01 15:22 11

DeepSeek R1-Zero 内幕大公开：原来“顿悟时刻”早就来了？还有 GRPO 的秘密

今天给大家带来一篇重磅研究解读，来自新加坡国立大学和SeaAILab团队 Zichen Liu 博士的最新工作，直击 R1-Zero-Like 训练的核心痛点，信息量爆炸！

deepseek 凯捷 rl 顿悟 grpo 2025-03-24 04:54 14

GRPO在《时空谜题》中击败o1、o3-mini和R1

近日，海外大模型产品平台 OpenPipe 上发布了一项研究，阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。研究作者分别为来自 Ender Research 的强化学习研究员 Brad Hilton 和 Open

时空谜题 o1 grpo 时空谜题 2025-03-27 16:35 13

DeepSeek核心技术PPO & GRPO原理，小学生也能看懂！

在强化学习（RL）中，如果我们只知道“做对了能拿多少分”，那往往还不够，因为单纯追求高分可能带来种种副作用，比如过度搜索、模型不稳定、甚至“走捷径”而偏离合理范围。

deepseek ppo grpo deeps grpo原理 2025-03-24 13:23 12

DeepSeek R1-Zero内幕公开：“顿悟时刻”早就来了？还有GRPO秘密

今天给大家带来一篇重磅研究解读，来自新加坡国立大学和SeaAILab团队 Zichen Liu 博士的最新工作，直击 R1-Zero-Like 训练的核心痛点，信息量爆炸！

deepseek rl 顿悟 grpo grpo秘密 2025-03-24 11:32 16

DeepSeek R1-Zero 内幕：顿悟与 GRPO 之谜

今天给大家带来一篇重磅研究解读，来自新加坡国立大学和SeaAILab团队 Zichen Liu 博士的最新工作，直击 R1-Zero-Like 训练的核心痛点，信息量爆炸！

deepseek rl 顿悟 grpo 归一化 2025-03-23 18:25 14

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

近日，清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果：DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。这是一个可实现大规模 LLM

开源 rl grpo rl算法 dapo 2025-03-18 23:22 11

小米大模型团队音频推理突破，一周登顶MMAU榜，GRPO算法显神威！

小米大模型团队近日宣布，在音频推理技术方面取得了显著进步。该团队受DeepSeek-R1项目的启发，成功将强化学习算法应用于多模态音频理解任务，这一创新实践仅耗时一周，便在国际权威的MMAU音频理解评测中取得了64.5%的准确率，成功登顶榜首，并且已经同步开源

推理算法音频 grpo grpo算法 2025-03-18 04:30 14

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

通常来说，这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹，并包含了试图实现某些「算法」的 token：例如反思前一个答案、规划或实现某种形式的线性搜索。这些方法包括显式地微调预训练 LLM 以适应算法行为，例如对搜索数据进行监督微调（SFT）或针对

范式算法 cmu rl grpo 2025-03-13 14:31 14

使用DeepSeek的GRPO，7B模型只需强化学习就能拿下数独

近日，技术博主 Hrishbh Dalal 的实践表明，这个问题的答案是肯定的。并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法，最终他「成功在一个小型数独数据集上实现了高奖励和解答」。

学习模型 deepseek 数独 grpo 2025-03-11 13:45 12