rl

GLM-4.5技术报告揭秘:如何围绕Agent构建一个模型

智谱GLM-4.5的发布,在近期的AI开源社区中引发了不小的讨论。模型放出后,它在Hugging Face社区的趋势榜单上表现亮眼,综合性能也在多个基准测试中位列前茅。其原生Agent能力的提法和颇具竞争力的定价,都成为了开发者们关注和讨论的焦点。

模型 agent arc rl coding 2025-08-12 17:14  4

无监督RL的粗略分析

近期,无监督RL在社区也掀起了一阵热潮,主打一个 多快好省(不能训太长step)有效果,且不论文章里面的evaluation是否存在问题,本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。

llm 自然语言处理 rl uda 监督rl 2025-06-27 16:07  8

Slime 框架深度解析:面向大规模RL的训推一体化实践

最近 RL 领域非常热闹,算法上涌现了各种神奇的操作:从少量数据、单条数据,乃至模型自产数据进行强化学习,甚至连标签错误的 RL 数据也能学到知识。这些进展都很有趣,但个人感觉尚未触及特别本质的突破。因此,我将更多精力转向了基础设施(Infra)层面。本文旨在

rl ray ipc slime slime框架 2025-06-27 13:47  9

强化学习怎么入门好?

最近在做一个跟强化学习有关的项目,在csdn等网站上了解了MDP,值函数等基本知识,接着学习Q学习、Sarsa等算法,但是感觉有些囫囵吞枣,有没有比较好的入门方法打好基础呢

学习 推理 rl kl rl训练 2025-06-23 19:58  8

大模型火了之后,这本书更像圣经了

在这个到处是大模型和深度学习的时代,很多人都开始怀疑,传统的强化学习方法是不是已经过时了。但 Sutton 的回应恰恰说明了一个核心问题:你越是在“黑盒”盛行的年代,越需要掌握最基本的原理。

模型 llm gym rl 圣经 2025-06-21 12:31  8

RL+search = Deep research

我之前说过chatGPT的deepresearch 做的好是因为它的DR 引擎是o3强化版本的针对过search场景RFT过,所以体验比grok和google的DR要好,后两者更像deep search或者说我们用的更像deep search

rag llm rl deepresearch ppo 2025-05-11 23:53  11

无需SFT也不用RL,样本级推理优化神器SLOT来了

近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推

推理 delta rl slot sft 2025-06-09 22:00  9