智能体版《苦涩的教训》,图灵奖得主Sutton、谷歌RL大佬Silver新作:超人智能靠经验

360影视 欧美动漫 2025-04-17 11:56 3

摘要:图 1:主流人工智能范式的简要时间线。纵轴显示该领域在强化学习(RL)上的总体努力和计算资源的占比。人类数据时代提供了一个吸引人的解决方案。海量的人类数据语料库包含了大量任务的自然语言示例。与模拟时代相对有限的成功相比,基于这些数据训练的智能体实现了广泛的技能

机器之心报道机器之心编辑部人类生成的数据推动了人工智能的惊人进步,但接下来会怎样呢?几天前,Google DeepMind 强化学习副总裁 David Silver 参与了一场播客访谈节目,探讨了如何从依赖人类数据的时代迈向自主学习的时代。图 1:主流人工智能范式的简要时间线。纵轴显示该领域在强化学习(RL)上的总体努力和计算资源的占比。人类数据时代提供了一个吸引人的解决方案。海量的人类数据语料库包含了大量任务的自然语言示例。与模拟时代相对有限的成功相比,基于这些数据训练的智能体实现了广泛的技能。因此,经验式强化学习的方法论被广泛摒弃,转而支持更具通用性的智能体,从而推动了人工智能向以人类为中心的方向广泛转变。然而,在这一转变中失去了一些东西:智能体自我发现知识的能力。例如,AlphaZero 发现了国际象棋和围棋的根本性新策略,改变了人类玩这些游戏的方式。经验时代将把这种能力与人类数据时代所实现的任务通用性水平结合起来。正如上面所概述的,当智能体能够在现实世界经验流中自主行动和观察,并且奖励可以灵活地连接到任何基础的现实世界信号时,这将成为可能。与复杂现实世界行动空间互动的自主智能体的出现,加上能够在丰富推理空间中解决开放性问题的强大 RL 方法,表明向经验时代的转变即将来临。强化学习方法强化学习有着悠久的历史,深深植根于自主学习,其中智能体通过与环境的直接交互进行自我学习。早期的强化学习研究催生了一系列强大的概念和算法。例如,时序差分学习使智能体能够预估未来的奖励,并取得了一些突破,例如在西洋双陆棋比赛中取得了超越人类的表现。由乐观或好奇心驱动的探索技术被开发出来,帮助智能体发现创造性的新行为,并避免陷入次优的做法。比如,像 Dyna 算法这样的方法使智能体能够构建和学习其所处世界的模型,从而使它们能够规划和推理未来的行动。再比如选项和选项内 / 选项间学习之类的概念促进了时间抽象,使智能体能够在更长的时间尺度上进行推理,并将复杂的任务分解为可管理的子目标。然而,以人为中心的 LLM 的兴起将重点从自主学习转移到利用人类知识。比如 RLHF(基于人类反馈的强化学习)之类的技术以及将语言模型与人类推理能力相结合的方法,已被证明极其有效,推动了人工智能能力的快速发展。这些方法虽然功能强大,但往往绕过了强化学习的核心概念:RLHF 通过调用人类专家代替机器估值来回避对价值函数的需求;来自人类数据的强先验知识减少了对探索的依赖;以人为中心的推理减少了对世界模型和时间抽象的需求。有人可能会认为,这种范式转变如同「把孩子和洗澡水一起倒掉」。以人为中心的强化学习虽然实现了前所未有的行为广度,但也给智能体的性能设定了新的上限:智能体无法超越现有的人类知识。此外,人类数据时代主要关注的是那些为短时间、无根基的人机交互而设计的强化学习方法,而这些方法并不适用于长时间、有根基的自主交互。经验时代为重新审视和改进经典强化学习概念提供了机会。经验时代将带来新的思考奖励函数的方式,这些奖励函数可以灵活地以观察数据为基础。经验时代还将重新审视价值函数以及从序列尚未完成的长流中估计它们的方法。同时将带来原则性且实用的现实世界探索方法,从而发现与人类先验截然不同的新行为。新的世界模型方法将被开发出来,以捕捉有根基交互的复杂性。新的时间抽象方法将使智能体能够基于,在更长的时间尺度内进行推理。通过构建强化学习的基础,并使其核心原则适应新时代的挑战,我们能够充分释放自主学习的潜力,为真正的超人(superhuman)智能铺平道路。后果经验时代的到来,AI 智能体从与世界的互动中学习,预示着未来将与我们之前所见的一切大相径庭。这一新范式虽然提供了巨大的潜力,但也提出了需要仔细考虑的重要风险和挑战,包括但不限于以下几点。从积极的一面来看,实验式学习将释放前所未有的能力。在日常生活中,个性化助手将利用连续的经验流来适应个人在健康、教育或专业需求方面的长期目标,跨越数月或数年。也许最具变革性的将是科学发现的加速。AI 智能体将在材料科学、医学或硬件设计等领域自主设计和进行实验。通过不断从自己的实验结果中学习,这些智能体可以以前所未有的速度快速探索知识的新前沿,开发出新材料、药物和技术。然而,这个新时代也带来了新的重大挑战。虽然人类能力的自动化有望提高生产力,但这些改进也可能导致工作岗位的流失。智能体甚至可能展现出以前被认为是人类专属领域的能力,如长期问题解决、创新和对现实世界后果的深入理解。此外,尽管对任何人工智能的潜在滥用都存在普遍担忧,但能够在长时间内自主与世界互动以实现长期目标的智能体可能会带来更大的风险。默认情况下,这为人类提供了较少的介入和调解智能体的机会,因此需要更高的信任和责任标准。远离人类数据和人类思维模式也可能使未来的 AI 系统更难解读。然而,虽然认识到经验学习将增加某些安全风险,肯定需要进一步研究以确保安全过渡到经验时代,我们也应该认识到它可能带来一些重要的安全益处。首先,智能体感知到其所处的环境,其行为可以随着时间的推移适应环境的变化。任何预编程系统,包括固定的 AI 系统,可能不了解其环境背景,并且无法适应其部署的不断变化的世界。例如,关键硬件可能发生故障,大流行病可能会导致社会迅速变革,或新的科学发现可能触发一系列快速的技术发展。相比之下,智能体可以观察并学习规避故障硬件,适应快速的社会变化,或接受并建立在新的科学和技术上。也许更重要的是,智能体可以识别其行为何时引发人类关注、不满或痛苦,并适应性地修改其行为以避免这些负面后果。其次,智能体的奖励函数本身可以通过经验进行调整,例如使用前面描述的双层优化(见奖励)。重要的是,这意味着当奖励函数出现价值偏差时,通常可以通过试错逐渐纠正。例如,与其盲目地优化一个信号(如回形针的最大化生产),不如根据人类担忧的迹象修改奖励函数,以免回形针生产消耗地球上所有资源。这类似于人类为彼此设定目标的方式,然后如果他们观察到人们利用系统、忽视长期福祉或导致不希望的负面后果,就调整这些目标;当然,正如人类自身的目标设定过程,这种调节机制也无法确保绝对的价值对齐。最后,依赖物理经验的进步,本质上受到在现实世界中执行行动并观察其后果所需的时间的限制。例如,开发一种新药,即使有 AI 辅助设计,仍然需要在现实世界中试验,而这些试验不可能在一夜之间完成。这可能为潜在的 AI 自我改进速度产生一个自然的抑制作用。结论经验时代标志着人工智能发展的一个关键转折点。在现有的坚实基础上,智能体将超越人类生成数据的局限性,越来越多地从与世界的互动中学习。智能体将通过丰富的观察和行动自主与环境交互,并在终身经验流中持续适应。它们的目标可以被引导至任何基于环境信号的组合。此外,智能体将利用强大的非人类推理能力,并制定基于其行为对环境影响的计划。最终,经验数据将在规模和质量上超越人类生成的数据。这种范式转变,伴随着强化学习算法的进步,将在许多领域释放出超越人类能力的新能力。© THE END转载请联系本公众号获得授权原标题:《智能体版《苦涩的教训》,图灵奖得主Sutton、谷歌RL大佬Silver新作:超人智能靠经验》

来源:爱体育创未来人生

相关推荐