田渊栋和SergeyLevine参与开发新型RL算法
强化学习提升了 LLM 各方面的能力,而强化学习本身也在进化。现实世界中,很多任务很复杂,需要执行一系列的决策。而要让智能体在这些任务上实现最佳性能,通常需要直接在多轮相关目标(比如成功率)上执行优化。不过,相比于模仿每一轮中最可能的动作,这种方法的难度要大得
算法 rl 田渊 rl算法 sergeylevine 2025-03-23 18:25 4
强化学习提升了 LLM 各方面的能力,而强化学习本身也在进化。现实世界中,很多任务很复杂,需要执行一系列的决策。而要让智能体在这些任务上实现最佳性能,通常需要直接在多轮相关目标(比如成功率)上执行优化。不过,相比于模仿每一轮中最可能的动作,这种方法的难度要大得
算法 rl 田渊 rl算法 sergeylevine 2025-03-23 18:25 4
近日,清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是一个可实现大规模 LLM