苹果出手!改进GRPO,让dLLM也能高效强化学习 不同于基于 Transformer 的自回归式语言模型,dLLM 基于掩码式扩散模型(masked diffusion model / MDM),此前我们已经报道过 LLaDA 和 Dream 等一些代表案例,最近首款实现商业化的 dLLM 聊天机器人 Mer 苹果 token 掩码 grpo dllm 2025-06-27 14:32 2