DeepMind用语言游戏让大模型学AlphaGo自我博弈,数据限制不存在了

摘要:苏格拉底式学习的本质局限性在自我完善的三个必要条件中,覆盖和反馈这两个条件原则上适用于苏格拉底式学习,而且仍然是不可还原的。为了尽可能清楚地说明这两个条件的含义,本节中忽略了第三个条件(规模、实用性和效率问题),而从长远的角度来考虑这种简化的动机:如果计算能力

机器之心报道编辑:泽南、蛋酱自我博弈,很神奇吧?我们终于朝着真正自主、自我完善的人工智能迈出了重要一步?上周末,一篇 Google DeepMind 的论文引发了 AI 圈的关注。研究者引入了「苏格拉底式学习」,这是 AI 中递归自我完善的一种新方法。这种方法使系统能够自主增强其能力,超越初始训练数据的限制。通过利用结构化的「语言游戏」,该技术可以为实现通用人工智能提供了实用的路线图。在该工作中,DeepMind 提出的框架围绕封闭、自给自足的环境,AI 系统无需外部数据即可运行。要实现目标,智能体必须满足三个关键条件:反馈与目标一致,广泛的数据覆盖范围,以及足够的计算资源。这种设计促进了独立学习,为通向 AGI 提供了一条可扩展的途径,同时解决了数据生成和反馈质量等挑战。新方法的核心是进行「语言游戏」,即智能体之间结构化的交互、解决问题并以分数的形式接收反馈。这些游戏允许人工智能进行自我博弈,生成数据并完善技能,也无需人工输入。递归结构使系统能够自主创建和开局新游戏,解锁更抽象的解决问题的能力并扩展其能力。最终的创新在于 AI 自我改造,智能体不仅可以从环境中学习,还可以重新配置其内部系统。这样可以消除固定架构带来的限制,为超过以往的性能改进奠定基础。总之,DeepMind 的研究强调了苏格拉底式学习作为创造真正自主、自我完善的人工智能的变革性步骤的潜力。让我们看看这篇论文是怎么说的:苏格拉底式学习的本质局限性在自我完善的三个必要条件中,覆盖和反馈这两个条件原则上适用于苏格拉底式学习,而且仍然是不可还原的。为了尽可能清楚地说明这两个条件的含义,本节中忽略了第三个条件(规模、实用性和效率问题),而从长远的角度来考虑这种简化的动机:如果计算能力和内存继续呈指数增长,那么规模限制只是暂时的障碍。如果不是这样,考虑苏格拉底式学习的资源受限情景(类似于研究有界理性)仍能产生有效的洞察。覆盖条件意味着苏格拉底学习系统必须不断生成(语言)数据,同时随着时间的推移保持或扩大多样性。在 LLM 时代,这似乎并不太牵强:我们可以设想,一个生成智能体初始化时拥有类似互联网的广泛分布,它可以生成永无止境的新语言表达流。然而,在递归过程中防止生成分布的漂移、崩溃或缩小可能非常困难。反馈条件要求系统:(a)持续产生关于智能体输出(某些子集)的反馈,这在结构上要求批评者能够评估语言,(b)反馈与观察者的评估指标保持足够一致。这造成挑战的原因有很多:语言空间中定义明确、有依据的衡量标准往往局限于狭隘的任务,而人工智能反馈等通用性更强的机制则可以加以利用,尤其是在允许输入分布发生变化的情况下。例如,目前的 LLM 训练范式都没有足以满足苏格拉底式学习的反馈机制。下一个 token 的预测损失是有依据的,但与下游的使用情况不够一致,而且无法推断出训练数据之外的情况。根据定义,人类的偏好是一致的,但却阻碍了在封闭系统中的学习。将这种偏好缓存到已学习的奖励模型中会使其自成一体,但从长远来看会被利用并可能出现错位,而且对分布外数据的影响也很微弱。换句话说,纯粹的苏格拉底式学习是可能的,但它需要广泛的数据生成和强大且一致的批评能力。然而,当这些条件都具备时,其潜在改进的上限就会受到应用资源量的限制。目前已有的研究还没有为此制定出成功的方法,接下来的内容会就如何进行苏格拉底式学习提出一个具体但相当笼统的建议。「Language games are all you need」在该研究中,研究者认为 AI 的训练可以借鉴维特根斯坦的语言游戏概念。在其中,并不是让词语捕捉意义,而是让语言的互动性做到这一点。具体来说,语言游戏定义为一种互动协议(一组规则,可以用代码表达),它指定了一个或多个具有语言输入和语言输出的智能体(「玩家」)之间的互动,以及游戏结束时每个玩家的标量评分函数。如此定义的语言游戏满足了苏格拉底式学习的两个主要需求。即,1)它们为无限制的交互式数据生成和自我博弈提供了一种可扩展的机制,2 同时自动提供伴随的反馈信号(分数)。事实上,它们是覆盖和反馈条件的逻辑结果,几乎一直在被应用。如果将这个过程视为游戏过程,我们就立即可以意识到多智能体动态产生的丰富策略具有很大潜力。另外,许多常见的 LLM 交互范式也可以被很好地表示为语言游戏,例如辩论、角色扮演、心智理论、谈判、越狱攻防,或在封闭系统之外,来自人类反馈的 RL 等范式 (RLHF)。回到哲学家:我们能想象他们玩上几千年的语言游戏吗?相反,也许他们在玩多种语言游戏时更有可能摆脱狭隘的结果。维特根斯坦(又是他)也提出过同样的观点:他坚决反对语言具有单一的本质或功能。使用许多狭义但定义明确的语言游戏而不是单一的通用游戏,可以解决一个关键的两难问题:对于每个狭义游戏,都可以设计出可靠的得分函数(或批评家),而正确地获得单一的通用函数则更加难以捉摸(即使原则上是可能的,正如 Silver 等人所论证的那样)。从这个角度看,苏格拉底式学习的整个过程就是一个元游戏,它安排了智能体玩的语言游戏并从中学习(根据 Carse (2011),这是一个「无限」游戏)。研究者认为,原则上这一想法足以解决覆盖问题。具体来说,如果有观察者感兴趣的分布的智能体(例如,任务的验证集),就可以用来驱动元游戏中的探索。正如苏格拉底本人的经历,苏格拉底式的思考过程并不能保证与外部观察者的意图保持一致。语言游戏作为一种机制,也没有回避这一点,但可以说,它降低了所需的精确度:我们所需要的不是一个在单个输入和输出的细粒度上保持一致的批评家,而是一个能够判断哪些游戏应该玩的「元批评家」:也许没有一个语言游戏是完全一致的,但可以做的是,根据它们是否(在玩和学习时)做出了总体上积极的净贡献,对众多游戏进行筛选。此外,一个游戏的有用性并不需要事先评估,而是可以在玩过一段时间之后进行事后判断。与此相关,一个有益的不对称现象是,事后发现偏差的突发行为可能比设计游戏防止这种行为要容易得多。所有这些特性都是结构上的宽松形式,赋予了语言游戏框架巨大的扩展潜力。暂时跳出此处对封闭系统的假设:当我们实际构建人工智能时,我们几乎肯定不会乐观地相信对齐会得到保持,而是会尽可能仔细地持续检查这一过程,并可能在整个训练过程中对系统进行干预和调整。在这种情况下,明确地将游戏分布(伴随着可解释的游戏描述和每个游戏的学习曲线)作为旋钮提供给设计者,可能是一种有用的抽象方法。更高阶的递归到目前为止,本文讨论了递归的最低必要形式,即一种将智能体(部分)输出反馈给自身的循环形式。在语言游戏的框架内,研究者还想到了另外两种递归形式。第一种思路是告诉智能体它正在玩哪个游戏,并让它选择切换游戏、切换到哪个游戏以及何时切换。这与分层或以目标为条件的 RL 有关,为智能体提供了更多的自主权和更抽象的行动空间。在将更多责任转移给智能体的同时,与智能体外部的硬联线游戏选择过程相比,这种设置可以显著改善结果,但当然,这种额外的自由度可能会带来崩溃或错位的额外风险。其次,由于游戏是可以完全用代码表示的交互协议,因此它们可以存在于语言智能体的输出空间中。一开始,它可以简单地生成现有游戏的局部变体,从而调整主题的难度水平,之后再对游戏进行重组,最终实现全新生成。这导致了语言游戏空间而非语言空间的二阶覆盖问题,需要通过过滤、优先排序或课程来解决。这两种递归扩展的结合就是一个有能力的智能体,它可以通过游戏的生成和玩耍来玩完整的元游戏,即如何改进自己。这种元博弈虽然优雅动人,但却缺乏内部语言博弈的明确反馈机制,而且像学习进度这样的既定智能体指标是否足以长期保持覆盖和对齐特性,也是一个有待研究的问题。递归的下一步,也是最后一步是递归自我改造,也就是说,智能体的行为会改变其自身的内部结构,而不仅仅是影响其输入流。这些方法的特点是可以以这种方式修改哪些内容(哪些内容保持不变),以及智能体可以进行多少自省,或者说可以访问其自身的工作原理。在极端情况下,一个完全自我反省的智能体可以观察和修改自身的任何方面,而无需间接操作。原则上,这种类型的智能体具有最高的能力上限;由于渐进性能受到其固定结构的限制,解冻部分结构并使其可修改只会增加上限。尤其是,总有可能将新灵活参数设置为冻结时的状态,以恢复灵活性较低的智能体的性能(在不考虑学习动力的情况下)。从这种角度看,过去关于如何设计自我参照系统的建议并不实用,但现代 LLM 在代码理解和生成方面的能力正在改变竞争环境,可能很快就会将这些想法从空洞转向关键。参考内容:https://x.com/kimmonismus/status/1862993274727793047© THE END转载请联系本公众号获得授权

来源:晓晨科技观察

相关推荐