探索废墟中的机械之美
Parkour in the Wild Loarnins cerandeeniiio。Nikita Rudin,Junzhe He,Joshua Aurand and Marco Hutter。Robotics Systems Lab,ETH Zurich &
机械 rl zurich extensible framew 2025-06-11 20:07 4
Parkour in the Wild Loarnins cerandeeniiio。Nikita Rudin,Junzhe He,Joshua Aurand and Marco Hutter。Robotics Systems Lab,ETH Zurich &
机械 rl zurich extensible framew 2025-06-11 20:07 4
近期,无监督RL在社区也掀起了一阵热潮,主打一个 多快好省(不能训太长step)有效果,且不论文章里面的evaluation是否存在问题,本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。
最近 RL 领域非常热闹,算法上涌现了各种神奇的操作:从少量数据、单条数据,乃至模型自产数据进行强化学习,甚至连标签错误的 RL 数据也能学到知识。这些进展都很有趣,但个人感觉尚未触及特别本质的突破。因此,我将更多精力转向了基础设施(Infra)层面。本文旨在
过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large Language Mode
如果说我们此前报道过的Colorfly L1是以“极致轻量化”叩开了移动Hi-Fi的大门,让用户得以用拇指尺寸的设备触碰高品质音频的门槛,那么同期发布的Colorfly L2则显得更具野心——在延续轻量化基因的同时,Colorfly将旗舰级音频架构与元器件浓缩
基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题,来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」(Synthetic Data RL)的通用框架。该框架仅需用户提供一个简单的任务定义,即可全自动地生成高质
最近在做一个跟强化学习有关的项目,在csdn等网站上了解了MDP,值函数等基本知识,接着学习Q学习、Sarsa等算法,但是感觉有些囫囵吞枣,有没有比较好的入门方法打好基础呢
在流媒体音乐与无损音频蓬勃发展的当下,越来越多人开始追求能够随时随地获得高品质听音体验。智能手机3.5mm耳机孔的集体消失,使得“轻量化Hi-Fi”的重任落到了便携解码耳放,特别是我们俗称的“小尾巴”身上。Colorfly最新推出的L1便携解码耳放,正是这一趋
在这个到处是大模型和深度学习的时代,很多人都开始怀疑,传统的强化学习方法是不是已经过时了。但 Sutton 的回应恰恰说明了一个核心问题:你越是在“黑盒”盛行的年代,越需要掌握最基本的原理。
测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?
我之前说过chatGPT的deepresearch 做的好是因为它的DR 引擎是o3强化版本的针对过search场景RFT过,所以体验比grok和google的DR要好,后两者更像deep search或者说我们用的更像deep search
rag llm rl deepresearch ppo 2025-05-11 23:53 6
在该模型发布的前几个小时,Mistral AI的CEO Arthur Mensch在接受炉边访谈时声称即将发布的Magistral能够与其他所有竞争对手相抗衡。
各位AI圈的老铁们,今天咱们来聊点硬核又不失风趣的话题——长上下文推理大模型的新晋王者:QwenLong-L1。别急着划走,这不是广告,而是一次技术圈的“吃瓜”现场,瓜保熟,技术干货管够!
近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推
当DeepSeek-R1以更低成本实现类似性能突破时,Claude能够连贯工作数小时完成复杂任务时,意味着AI发展已经迈入推理时代,强化学习技术的重要性不言而喻,将重塑AI产业的技术栈乃至商业模式。
近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推
本文主要作者是吕昂和谢若冰。吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模型、推荐系统。
刚刚,AI顶流春晚智源大会来了!深度学习和强化学习两大巨头齐聚,图灵奖得主、顶尖专家出席,2025 AI未来的发展路径,在一场场精彩的思想碰撞中被清晰解码,硬核指数已经超标。
刚刚,AI顶流春晚智源大会来了!深度学习和强化学习两大巨头齐聚,图灵奖得主、顶尖专家出席,2025 AI未来的发展路径,在一场场精彩的思想碰撞中被清晰解码,硬核指数已经超标。
作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “ 全面开源、极速训练、深度可定制 ” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更