rl资讯_360影视

让强化学习快如闪电：FlashRL一条命令实现极速Rollout

在今年三月份，清华 AIR 和字节联合 SIA Lab 发布了 DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。这是一个可实现大规模 LLM 强化学习的

rl tis 快如闪电 rollout flashrl 2025-08-12 21:19 2

GLM-4.5技术报告揭秘：如何围绕Agent构建一个模型

智谱GLM-4.5的发布，在近期的AI开源社区中引发了不小的讨论。模型放出后，它在Hugging Face社区的趋势榜单上表现亮眼，综合性能也在多个基准测试中位列前茅。其原生Agent能力的提法和颇具竞争力的定价，都成为了开发者们关注和讨论的焦点。

模型 agent arc rl coding 2025-08-12 17:14 4

智谱终于发布GLM-4.5技术报告，从预训练到后训练，细节大公开

就在上个月底，智谱放出重磅炸弹 —— 开源新一代旗舰模型GLM-4.5以及轻量版GLM-4.5-AIr。其不仅首次突破性地在单个模型中实现了推理、编码和智能体能力的原生融合，还在 12 项全球公认的硬核测试中取得了全球第三的综合成绩。这个成绩在所有国产模型和开

训练智能体 rl sonnet aime 2025-08-11 15:24 2

开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

只需一个MCP Server的地址，agent就能自动发现工具、生成任务，通过强化学习在闭环反馈中摸索出最优调用策略。

gpt 开源 agent mcp rl 2025-08-11 10:19 2

此题情景变化多端，题意也比较晦涩，能够从容应对者都是强者!

1由题意可知:电流表示数不随P的移动而改变，始终为1A，说明R0被短路了，所以电表b为电流表，电表a为电压表，所以A项正确；

ul rl pl 电路图 il 2025-08-11 05:58 3

探索废墟中的机械之美

Parkour in the Wild Loarnins cerandeeniiio。Nikita Rudin，Junzhe He，Joshua Aurand and Marco Hutter。Robotics Systems Lab，ETH Zurich &

机械 rl zurich extensible framew 2025-06-11 20:07 8

无监督RL的粗略分析

近期，无监督RL在社区也掀起了一阵热潮，主打一个多快好省（不能训太长step）有效果，且不论文章里面的evaluation是否存在问题，本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。

llm 自然语言处理 rl uda 监督rl 2025-06-27 16:07 8

Slime 框架深度解析：面向大规模RL的训推一体化实践

最近 RL 领域非常热闹，算法上涌现了各种神奇的操作：从少量数据、单条数据，乃至模型自产数据进行强化学习，甚至连标签错误的 RL 数据也能学到知识。这些进展都很有趣，但个人感觉尚未触及特别本质的突破。因此，我将更多精力转向了基础设施（Infra）层面。本文旨在

rl ray ipc slime slime框架 2025-06-27 13:47 9

淘天联合爱橙开源强化学习训练框架，支持十亿到千亿参数大模型

过去几年，随着基于人类偏好的强化学习（Reinforcement Learning from Human Feedback，RLHF）的兴起，强化学习（Reinforcement Learning，RL）已成为大语言模型（Large Language Mode

训练模型智能体开源 rl 2025-06-25 14:13 9

以轻量化打造全场景移动音频枢纽——这个“小尾巴”够全能

如果说我们此前报道过的Colorfly L1是以“极致轻量化”叩开了移动Hi-Fi的大门，让用户得以用拇指尺寸的设备触碰高品质音频的门槛，那么同期发布的Colorfly L2则显得更具野心——在延续轻量化基因的同时，Colorfly将旗舰级音频架构与元器件浓缩

耳机音频轻量化 rl colorfly 2025-06-24 17:37 8

合成数据>人工数据，绝对性能暴涨超10个点！高效微调大模型

基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题，来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」（Synthetic Data RL）的通用框架。该框架仅需用户提供一个简单的任务定义，即可全自动地生成高质

模型数据集 rl gsm8k cqa 2025-06-24 18:00 8

强化学习怎么入门好？

最近在做一个跟强化学习有关的项目，在csdn等网站上了解了MDP，值函数等基本知识，接着学习Q学习、Sarsa等算法，但是感觉有些囫囵吞枣，有没有比较好的入门方法打好基础呢

学习推理 rl kl rl训练 2025-06-23 19:58 8

这个拇指大的“小尾巴”能成为口袋里的手机“Hi-Fi引擎”

在流媒体音乐与无损音频蓬勃发展的当下，越来越多人开始追求能够随时随地获得高品质听音体验。智能手机3.5mm耳机孔的集体消失，使得“轻量化Hi-Fi”的重任落到了便携解码耳放，特别是我们俗称的“小尾巴”身上。Colorfly最新推出的L1便携解码耳放，正是这一趋

手机耳机 pcm rl colorfly 2025-06-23 09:40 8

大模型火了之后，这本书更像圣经了

在这个到处是大模型和深度学习的时代，很多人都开始怀疑，传统的强化学习方法是不是已经过时了。但 Sutton 的回应恰恰说明了一个核心问题：你越是在“黑盒”盛行的年代，越需要掌握最基本的原理。

模型 llm gym rl 圣经 2025-06-21 12:31 8

视频生成1.3B碾压14B、图像生成直逼GPT-4o！

测试时扩展（Test-Time Scaling）极大提升了大语言模型的性能，涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么，什么是视觉领域的 test-time scaling？又该如何定义？

视频图像 rl sde evosearch 2025-06-11 03:22 11

RL+search = Deep research

我之前说过chatGPT的deepresearch 做的好是因为它的DR 引擎是o3强化版本的针对过search场景RFT过，所以体验比grok和google的DR要好，后两者更像deep search或者说我们用的更像deep search

rag llm rl deepresearch ppo 2025-05-11 23:53 11

新“SOTA”推理模型避战Qwen和R1？欧版OpenAI被喷麻了

在该模型发布的前几个小时，Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗衡。

openai qwen rl r1 sota 2025-06-11 13:52 9

QwenLong-L1横空出世：强化学习让大模型“长记性”，长文档推理新王者？

各位AI圈的老铁们，今天咱们来聊点硬核又不失风趣的话题——长上下文推理大模型的新晋王者：QwenLong-L1。别急着划走，这不是广告，而是一次技术圈的“吃瓜”现场，瓜保熟，技术干货管够！

模型推理 llm rl token 2025-06-10 08:31 10

无需SFT也不用RL，样本级推理优化神器SLOT来了

近期，当很多人还在纠结用什么 label 和 reward 训练大模型的时候，以及纠结用什么样的基准模型进行公平比较的时候，西湖大学 MAPLE 实验室另辟蹊径：既然 LLM 在复杂指令上表现不佳，需要引入单独的 SFT 或者 RL 过程，那为什么不让模型在推

推理 delta rl slot sft 2025-06-09 22:00 9

AGI最后拼图，一文看懂什么是强化学习？其护城河是什么？

当DeepSeek-R1以更低成本实现类似性能突破时，Claude能够连贯工作数小时完成复杂任务时，意味着AI发展已经迈入推理时代，强化学习技术的重要性不言而喻，将重塑AI产业的技术栈乃至商业模式。

智能体 claude 拼图 agi rl 2025-06-09 18:48 9