rl

无监督RL的粗略分析

近期,无监督RL在社区也掀起了一阵热潮,主打一个 多快好省(不能训太长step)有效果,且不论文章里面的evaluation是否存在问题,本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。

llm 自然语言处理 rl uda 监督rl 2025-06-27 16:07  3

Slime 框架深度解析:面向大规模RL的训推一体化实践

最近 RL 领域非常热闹,算法上涌现了各种神奇的操作:从少量数据、单条数据,乃至模型自产数据进行强化学习,甚至连标签错误的 RL 数据也能学到知识。这些进展都很有趣,但个人感觉尚未触及特别本质的突破。因此,我将更多精力转向了基础设施(Infra)层面。本文旨在

rl ray ipc slime slime框架 2025-06-27 13:47  3

强化学习怎么入门好?

最近在做一个跟强化学习有关的项目,在csdn等网站上了解了MDP,值函数等基本知识,接着学习Q学习、Sarsa等算法,但是感觉有些囫囵吞枣,有没有比较好的入门方法打好基础呢

学习 推理 rl kl rl训练 2025-06-23 19:58  4

大模型火了之后,这本书更像圣经了

在这个到处是大模型和深度学习的时代,很多人都开始怀疑,传统的强化学习方法是不是已经过时了。但 Sutton 的回应恰恰说明了一个核心问题:你越是在“黑盒”盛行的年代,越需要掌握最基本的原理。

模型 llm gym rl 圣经 2025-06-21 12:31  4

RL+search = Deep research

我之前说过chatGPT的deepresearch 做的好是因为它的DR 引擎是o3强化版本的针对过search场景RFT过,所以体验比grok和google的DR要好,后两者更像deep search或者说我们用的更像deep search

rag llm rl deepresearch ppo 2025-05-11 23:53  6

无需SFT也不用RL,样本级推理优化神器SLOT来了

近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推

推理 delta rl slot sft 2025-06-09 22:00  4

首个全异步强化学习训练系统来了

作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “ 全面开源、极速训练、深度可定制 ” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更

训练 异步 rl ppo rl训练 2025-06-05 03:35  5