与 Meta 田渊栋聊他的智能想象:我们终会 “所思即所得”
这一期的嘉宾是 Meta GenAI 研究总监,田渊栋。他是 AI 研究者,先后于上海交大、卡耐基梅隆大学机器人研究所获学士、硕士和博士学位。田渊栋自 2005 年开始探索智能和人工智能,最近 10 年,他一直在 Meta 从事 AI 研发。
这一期的嘉宾是 Meta GenAI 研究总监,田渊栋。他是 AI 研究者,先后于上海交大、卡耐基梅隆大学机器人研究所获学士、硕士和博士学位。田渊栋自 2005 年开始探索智能和人工智能,最近 10 年,他一直在 Meta 从事 AI 研发。
Reuters Japan's Agriculture, Forestry and Fisheries Minister Taku Eto speaks to the media after a meeting with Prime Minister Shig
强化学习提升了 LLM 各方面的能力,而强化学习本身也在进化。现实世界中,很多任务很复杂,需要执行一系列的决策。而要让智能体在这些任务上实现最佳性能,通常需要直接在多轮相关目标(比如成功率)上执行优化。不过,相比于模仿每一轮中最可能的动作,这种方法的难度要大得
算法 rl 田渊 rl算法 sergeylevine 2025-03-23 18:25 12
来自 Meta 等机构的研究者提出了一种新颖且高效的预训练框架:连续概念混合(Continuous Concept Mixing, CoCoMix),其将离散的下一个 token 预测与连续概念相结合。
transformer 田渊 概 革新transformer 2025-03-13 10:11 12
在 DeepSeek 能够破圈而出的一众原因中,完全摒弃传统的监督微调(SFT)、转而采用大规模强化学习(RL)的创新之处是关键所在,这使得模型推理能力在质上取得显著突破,更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。
12月21日凌晨2点,OpenAI的12天直播,终于来到了最终章。奥特曼,也在一片圣诞的气息中终于回归。为大家带来了最后的压轴大戏。
OpenAI推出ChatGPT热线,用户可通过电话或WhatsApp直接与AI互动,无需联网;
针对大语言模型的推理任务,近日,Meta田渊栋团队提出了一个新的范式:连续思维链,对比传统的CoT,性能更强,效率更高。