得主sutton

智能体版《苦涩的教训》,图灵奖得主Sutton、谷歌RL大佬Silver新作:超人智能靠经验

图 1:主流人工智能范式的简要时间线。纵轴显示该领域在强化学习(RL)上的总体努力和计算资源的占比。人类数据时代提供了一个吸引人的解决方案。海量的人类数据语料库包含了大量任务的自然语言示例。与模拟时代相对有限的成功相比,基于这些数据训练的智能体实现了广泛的技能

智能体 超人 图灵奖 rl 得主sutton 2025-04-17 11:56  4