DeepSeek R1-Zero 内幕大公开:原来“顿悟时刻”早就来了?还有 GRPO 的秘密
今天给大家带来一篇重磅研究解读,来自新加坡国立大学 和SeaAILab团队 Zichen Liu 博士的最新工作,直击 R1-Zero-Like 训练的核心痛点,信息量爆炸!
今天给大家带来一篇重磅研究解读,来自新加坡国立大学 和SeaAILab团队 Zichen Liu 博士的最新工作,直击 R1-Zero-Like 训练的核心痛点,信息量爆炸!
随着机器人越来越多地部署在不同的应用领域,可泛化的跨具身移动策略变得越来越重要。虽然经典的移动栈已被证明在特定的机器人平台上有效,但它们在泛化到新具身时带来了重大挑战。基于学习的方法,例如模仿学习 (IL) 和强化学习 (RL),提供了替代解决方案,但受到协变
很显然,这里最佳的答案应该是直行,但预先提供的 4 个选项中并没有这个答案。也因此,目前的大多数 AI 在面临这个问题时往往并不能识别题中陷阱,会试图从选项中找到正确答案。比如下面展示了 ChatGPT 的回答:
射频(RF)测试在无线通信、电子设备以及许多其他领域中是至关重要的。为了有效开展射频测试,了解一些常见术语可以帮助工程师和技术人员更好地理解测试过程及其结果。以下是射频测试中的一些常见术语:
今天给大家带来一篇重磅研究解读,来自新加坡国立大学 和SeaAILab团队 Zichen Liu 博士的最新工作,直击 R1-Zero-Like 训练的核心痛点,信息量爆炸!
今天给大家带来一篇重磅研究解读,来自新加坡国立大学 和SeaAILab团队 Zichen Liu 博士的最新工作,直击 R1-Zero-Like 训练的核心痛点,信息量爆炸!
强化学习提升了 LLM 各方面的能力,而强化学习本身也在进化。现实世界中,很多任务很复杂,需要执行一系列的决策。而要让智能体在这些任务上实现最佳性能,通常需要直接在多轮相关目标(比如成功率)上执行优化。不过,相比于模仿每一轮中最可能的动作,这种方法的难度要大得
算法 rl 田渊 rl算法 sergeylevine 2025-03-23 18:25 4
虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。
在三维空间理解任务中,让视觉语言模型(VLM)生成结构合理、物理一致的场景布局仍是一项挑战。以“请将这些家具合理摆放在房间中”为例,现有模型尽管能够识别图像中的物体,甚至给出语义连贯的布局描述,但通常缺乏对三维空间结构的真实建模,难以满足基本的物理约束与功能合
2024年,SFT(监督微调)还在主导LLM的训练方式,简单粗暴,就是靠人工标注数据,把模型“喂饱”,再让它复述。但问题是,SFT的本质是“死记硬背”,稍微换个问法,它就懵了。OpenAI不公开自己的训练细节,但从ChatGPT的表现来看,SFT的影子依然很重
这几天海外科技圈最最受关注的有两件事,一个是一众科技大佬齐聚特朗普就职典礼,川普还拉上 OpenAI 软银等公司成立一家叫「星际之门」(Stargate Project)的 AI 公司,未来4年要投资 5000 亿美元,掀起了新一轮 AI 军备竞赛。
清华大学智能产业研究院(AIR)与字节跳动(ByteDance)联合实验室 SIA-Lab 开源了其最新研发的大规模 LLM 强化学习系统 ——Decoupled Clip andDynamic sAmplingPolicyOptimization(DAPO)
近日,清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是一个可实现大规模 LLM
美国总统特朗普一纸行政令,美国国际媒体署旗下的“美国之音”“自由亚洲电台”“自由欧洲电台”等多个政府“喉舌”恐遭“断粮”与“噤声”。面对如此困境,这些“喉舌”开始寄希望于欧盟“接济”,但得到的回复却令他们大失所望。
不仅在公众号、小红书、抖音疯狂刷屏,就连过年餐桌上七大姑八大姨都会来找我唠上两句:“你知道滴噗系可(DeepSeek)吗”。
deepseek rl r1 deepseekr1 填鸭 2025-03-18 02:54 3
2025 年 1 月,OpenAI 发布了名为 DeepResearch 的 o3 模型变种,专门用于网页和文档搜索。得益于在浏览任务上的强化学习训练,DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。无独
近期,我们团队发布了 Ligth-R1,是第一个从零复现满血版 DeepSeek-R1 的工作(几个小时后QWQ-32B发布),虽然大家都在关注 QWQ-32B,但是 QWQ-32B 只开源了模型,而我们把模型、数据、代码全部都开放出来了。
尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。
通常来说,这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹,并包含了试图实现某些「算法」的 token:例如反思前一个答案、规划或实现某种形式的线性搜索。这些方法包括显式地微调预训练 LLM 以适应算法行为,例如对搜索数据进行监督微调(SFT)或针对
阿里巴巴的 Qwen 团队近日发布了 QwQ-32B (Qwen with Questions),这是一款大型推理模型 (LRM),可与 DeepSeek-R1 和 OpenAI o1-mini 等领先模型的性能相匹配。