dllm

苹果出手！改进GRPO，让dLLM也能高效强化学习

不同于基于 Transformer 的自回归式语言模型，dLLM 基于掩码式扩散模型（masked diffusion model / MDM），此前我们已经报道过 LLaDA 和 Dream 等一些代表案例，最近首款实现商业化的 dLLM 聊天机器人 Mer