摘要:想象一下,如果你的私人健康助手不仅能根据你输入的卡路里提供建议,还能通过可穿戴设备持续感知你的心率、睡眠、活动,像个老朋友一样,在几个月甚至几年的时间里,不断调整策略,真正帮你养成健康的生活习惯;想象一下,如果AI科学家不再仅仅依赖人类已有的知识库,而是能自主
▲David Silver
本文来源:青衿小见
想象一下,如果你的私人健康助手不仅能根据你输入的卡路里提供建议,还能通过可穿戴设备持续感知你的心率、睡眠、活动,像个老朋友一样,在几个月甚至几年的时间里,不断调整策略,真正帮你养成健康的生活习惯;想象一下,如果AI科学家不再仅仅依赖人类已有的知识库,而是能自主设计实验、操作仪器、分析结果,甚至在材料科学、药物研发等领域做出突破性的发现……
这不是科幻小说的情节,而是人工智能领域两位泰斗——David Silver和Richard S. Sutton在他们的前瞻性论文《体验时代》(Welcome to the Era of Experience)中为我们描绘的未来图景。这篇文章虽然目前(截至2025年初)似乎仍是作为MIT出版社即将出版的书籍《设计智能》(Designing an Intelligence)中的一个预印章节发布,尚未引起如同ChatGPT发布时那样的海啸式社会反响,但其深刻的洞见和前瞻性的思考,无疑为我们理解AI的下一阶段发展方向投下了一束强光。
David Silver,这位前DeepMind(现Google DeepMind)的杰出研究员,是AlphaGo、AlphaZero等里程碑式AI的主要缔造者之一,他的工作一次次向世界证明了机器智能的惊人潜力。Richard S. Sutton,现代强化学习(Reinforcement Learning, RL)领域的奠基人之一,他的著作《强化学习导论》被誉为该领域的“圣经”。当这两位重量级人物联手,探讨AI的未来时,其分量不言而喻。
他们敏锐地指出,当前以大语言模型(LLMs)为代表、依赖海量“人类数据”的AI范式,虽然取得了“惊人的进步”(remarkable strides),能够写诗、解题、诊断、总结,展现出“广泛的通用性”(sweeping level of generality),但这种模式正迅速逼近其天花板。高质量的人类数据即将耗尽,单纯模仿人类无法带来超越人类的突破性见解,尤其是在科学、数学等前沿领域。“仅由人类数据驱动的监督学习所带来的进步速度,正在明显放缓,这表明需要一种新的方法。”
那么,新的方法是什么?答案就是——体验。作者预言,AI即将进入一个“体验时代”(Era of Experience)。在这个时代,智能体(agents)将主要通过与环境的持续互动、从自身产生的“体验数据”中学习,从而获得“超人能力”(superhuman capabilities)。这种体验数据将“最终在规模上超越当今系统中使用的人类数据”(ultimately dwarf the scale of human data used in today's systems)。
这篇论文就像一声发令枪,预示着AI研究的重心可能再次发生偏移。就在最近(2024-2025年),我们看到Google DeepMind、OpenAI、Anthropic等顶尖机构纷纷推出或预告了能够更自主地操作电脑、执行复杂任务的AI智能体,例如Google的Project Mariner、OpenAI的Operator、Anthropic的Computer Use功能。这些进展似乎正在印证作者的判断:AI正从“对话框”走向更广阔的“世界”,开始学习如何“做事”,而不仅仅是“说话”。
这不禁让人好奇:这个“体验时代”究竟意味着什么?它将如何重塑AI的能力边界?又将给我们带来怎样的机遇和挑战?Silver和Sutton在文中为我们勾勒了四大关键特征:流动的体验(Streams)、扎根的行动与观察(Actions and Observations)、源于环境的奖励(Rewards)、以及基于经验的规划与推理(Planning and Reasoning)。接下来,就让我们跟随作者的思路,一同深入探索这个激动人心又引人深思的“体验时代”。
▲《机器人总动员》剧照
「壹」
从“问答”到“长河”:流动的体验(Streams)
你有没有觉得,和现在的聊天机器人互动,总有点“一次性”的感觉?你问一个问题,它给一个答案,下次再聊,它好像已经忘了你是谁,上次聊了什么。这种“短暂的交互片段”(short snippets of interaction)正是当前许多AI系统的常态。它们的目标通常是“当前片段内的结果”(outcomes within the current episode),比如直接回答你的问题。
然而,真正的智能,无论是人类还是动物,都存在于一个“持续多年的行动和观察流”(ongoing stream of actions and observations that continues for many years)中。我们不断从过去的经验中学习、调整、自我修正,并且我们的行为往往是为了实现遥远的未来目标,比如“改善健康、学习一门语言,或者取得科学突破”(improving their health, learning a language, or achieving a scientific breakthrough)。
Silver和Sutton提出,“强大的智能体应该拥有自己的体验流,像人类一样,在很长的时间尺度上发展”(Powerful agents should have their own stream of experience that progresses, like humans, over a long time-scale)。这意味着AI不再是“问答机器”,而是一个能够进行长期规划和持续适应的学习者。
想象一下前面提到的健康助手。它连接着你的可穿戴设备,“监测睡眠模式、活动水平和饮食习惯长达数月”(monitor sleep patterns, activity levels, and dietary habits over many months),然后提供个性化的建议和鼓励,并“根据长期趋势和用户的具体健康目标调整其指导”(adjust its guidance based on long-term trends and the user's specific health goals)。同样,个性化教育智能体可以“跟踪用户学习新语言的进度,识别知识差距,适应他们的学习风格,并在数月甚至数年内调整其教学方法”(track a user's progress in learning a new language, identify knowledge gaps, adapt to their learning style, and adjust its teaching methods over months or even years)。
更进一步,科学智能体可以追求“雄心勃勃的目标,例如发现新材料或减少二氧化碳”(ambitious goals, such as discovering a new material or reducing carbon dioxide)。它可以通过“长时间分析真实世界的观察结果,开发和运行模拟,并建议真实世界的实验或干预措施”(analyse real-world observations over an extended period, developing and running simulations, and suggesting real-world experiments or interventions)。
这种“流动”的体验赋予了AI一种全新的能力:为长远目标而行动。“单个步骤可能不会提供任何直接的好处,甚至在短期内可能是有害的,但可能最终有助于长期的成功”(An individual step may not provide any immediate benefit, or may even be detrimental in the short term, but may nevertheless contribute in aggregate to longer term success)。这与当前AI系统“对请求提供即时响应,而没有任何能力衡量或优化其行动对环境的未来后果”形成了鲜明对比。
▲《机器人总动员》剧照
「贰」
从“对话框”到“世界”:扎根的行动与观察(Actions and Observations)
当前LLMs的主要交互方式是什么?文字输入,文字输出。它们通过“人类特权的行动和观察”(human-privileged actions and observations)与世界连接,也就是我们熟悉的对话界面。这与自然智能形成了鲜明对比,“动物通过运动控制和传感器与其环境互动”(an animal interacts with its environment through motor control and sensors)。
Silver和Sutton指出,体验时代的智能体将“在现实世界中自主行动”(act autonomously in the real world)。交互方式将远超文字对话。虽然LLMs调用API(应用程序接口)进行工具使用(tool-use)早已不是新鲜事,但早期这主要依赖于人类提供的示例。而现在,趋势是让智能体通过“执行反馈”(execution feedback)来学习,即“智能体实际运行代码并观察发生了什么”(the agent actually runs code and observes what happens)。
更进一步,“新一波原型智能体已经开始以更通用的方式与计算机交互,通过使用人类操作计算机的相同界面”(a new wave of prototype agents have started to interact with computers in an even more general manner, by using the same interface that humans use to operate a computer)。文中引用了Google DeepMind的Project Mariner、Anthropic的Computer Use等作为例子。这标志着一个重要的转变:“从完全的人类特权通信,转向更自主的交互,智能体能够独立地在世界上行动”(a transition from exclusively human-privileged communication, to much more autonomous interactions where the agent is able to act independently in the world)。
这意味着什么?意味着AI不再仅仅是你的“聊天伙伴”或“搜索助手”,它可能成为你的“数字劳工”甚至“数字同事”。它可以像人一样使用鼠标键盘操作软件、浏览网页、收发邮件、管理文件。这种“更丰富的交互”(richer interactions)将为AI提供“自主理解和控制数字世界的方式”(a means to autonomously understand and control the digital world)。
智能体可以同时利用“‘人类友好’的行动和观察,如图形用户界面”,方便与人协作;也可以采取“‘机器友好’的行动,执行代码和调用API”,以自主服务于其目标。更重要的是,它们还能通过数字接口与物理世界互动。例如,科学智能体可以“监测环境传感器,远程操作望远镜,或控制实验室中的机械臂以自主进行实验”(monitor environmental sensors, remotely operate a telescope, or control a robotic arm in a laboratory to autonomously conduct experiments)。
这种从“虚拟对话”到“物理/数字世界扎根”的转变,是体验时代AI能力跃升的关键。正如物理学家理查德·费曼所说:“我无法创造的东西,我就不理解。”(What I cannot create, I do not understand. - Richard Feynman)。只有当AI能够真正地“动手”去与世界交互,去尝试、去犯错、去观察后果,它才能获得对世界更深刻、更本质的理解,才能“主动探索世界,适应变化的环境,并发现人类可能永远不会想到的策略”(actively explore the world, adapt to changing environments, and discover strategies that might never occur to a human)。
▲《机器人总动员》剧照
「叁」
从“人评”到“事判”:源于环境的奖励(Rewards)
如何判断AI做得好不好?在“人类数据时代”,答案通常是:人说了算。无论是通过专家标注、用户投票,还是RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)中的偏好选择,奖励信号很大程度上依赖于“人类的预先判断”(human prejudgement)。专家看到AI的输出(比如一段文字、一个建议),在它真正产生效果之前,就判断它是好是坏。
Silver和Sutton一针见血地指出,这种方式存在一个致命缺陷:它依赖的“是由人类在没有考虑其后果的情况下确定的”,而非“衡量这些行动对环境的影响”,这意味着它们“没有直接扎根于世界的现实”(not directly grounded in the reality of the world)。完全依赖人类预判,通常会导致“智能体表现的一个无法逾越的上限”(an impenetrable ceiling on the agent's performance):智能体无法发现那些不被人类评价者欣赏、但实际上更优的策略。
要想发现“远远超出人类现有知识的新思想”(new ideas that go far beyond existing human knowledge),就必须使用“扎根的奖励”(grounded rewards):那些“源自环境本身的信号”(signals that arise from the environment itself)。
这些“扎根的奖励”从哪里来?作者认为,一旦智能体通过丰富的行动和观察空间与世界连接起来,“将不乏扎根的信号来提供奖励的基础”(there will be no shortage of grounded signals to provide a basis for reward)。世界充满了各种可测量的量:“成本、错误率、饥饿感、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功、访问量、产量、库存、点赞数、收入、快乐/痛苦、经济指标、准确性、功率、距离、速度、效率或能源消耗”(cost, error rates, hunger, productivity, health metrics, climate metrics, profit, sales, exam results, success, visits, yields, stocks, likes, income, pleasure/pain, economic indicators, accuracy, power, distance, speed, efficiency, or energy consumption)。此外,还有无数来自特定事件发生或从原始观察和行动序列中提取的特征信号。
健康助手:奖励信号可以基于用户的“静息心率、睡眠时长和活动水平”等组合指标。教育助手:奖励信号可以基于用户的“考试成绩”。科学智能体(目标:减缓全球变暖):奖励信号可以基于“对二氧化碳水平的经验观察”。科学智能体(目标:发现更强材料):奖励信号可以基于“材料模拟器的测量组合,如拉伸强度或杨氏模量”。甚至,人类的反馈也可以成为“扎根的奖励”,只要它衡量的是行动的后果,而非预判。例如,“用户可以报告他们是否觉得蛋糕好吃,运动后有多疲劳,或者头痛的程度”,这些反馈让助手能够改进食谱、健身建议或药物推荐。这种基于后果的反馈,最终应该比专家预判一个蛋糕食谱或锻炼计划带来更好的结果。
有人可能会问:如果AI完全自主地优化这些“非人类”的奖励信号,会不会脱离我们的控制?作者认为不一定。他们提出了一种“用户引导”的方式:奖励函数本身可以是一个灵活的神经网络,它接收智能体与用户和环境的交互作为输入,输出一个标量奖励。这样,奖励就可以“根据用户的目标来选择或组合来自环境的信号”(select or combine together signals from the environment in a manner that depends upon the user's goal)。
例如,用户设定一个宽泛的目标“提高我的健康水平”,奖励函数就输出一个由心率、睡眠、步数等构成的函数;用户设定目标“帮我学西班牙语”,奖励函数就输出西班牙语考试成绩。用户还可以在学习过程中提供反馈(比如满意度),用于微调奖励函数。这就像一个“双层优化过程”(bi-level optimisation process):顶层目标是优化用户反馈,底层则优化来自环境的扎根信号。这样,“少量的人类数据可能促进大量的自主学习”(a small amount of human data may facilitate a large amount of autonomous learning)。
这种从“预判奖励”到“扎根奖励”的转变,意义重大。它让AI的优化目标从“取悦人类评价者”转变为“在真实世界中取得实际效果”。这让人想起邓爷爷提出的“实践是检验真理的唯一标准”。只有实践结果(扎根奖励)才能告诉我们什么是真正有效的,而不是权威的预判。体验时代的AI,将是这一思想在智能机器上的体现。
▲《机器人总动员》剧照
「肆」
从“人思”到“世理”:基于经验的规划与推理(Planning and Reasoning)
近年来,LLMs在推理方面取得了显著进展,例如通过“思维链”(chain of thought)来模拟人类的思考过程。LLMs甚至被证明在理论上可以模拟通用计算机。然而,这些推理方法大多是“明确设计来模仿人类思维过程”(explicitly designed to imitate human thought processes)。它们被提示模仿人类思维轨迹,或者通过强化学习匹配人类范例。
作者对此提出了质疑:“人类语言极不可能是通用计算机的最佳实例”(it is highly unlikely that human language provides the optimal instance of a universal computer)。可能存在更有效的思维机制,“使用非人类语言,例如可能利用符号、分布式、连续或可微计算”(using non-human languages that may for example utilise symbolic, distributed, continuous, or differentiable computations)。一个自学习系统原则上可以通过从经验中学习如何思考,来发现或改进这些方法。文中再次提到了AlphaProof的例子,它“以与人类数学家截然不同的方式学会了形式化地证明复杂定理”(learned to formally prove complex theorems in a manner quite different to human mathematicians)。
更关键的是,仅仅模仿人类思维,可能会继承人类数据中根深蒂固的“错误思维方法,例如有缺陷的假设或固有的偏见”(fallacious methods of thought deeply embedded within that data, such as flawed assumptions or inherent biases)。作者举了一个生动的例子:如果一个AI在5000年前被训练模仿人类思维,它可能会用万物有灵论来解释物理问题;1000年前可能是神学;300年前是牛顿力学;50年前是量子力学。人类思想的每一次进步,都离不开与现实世界的互动:“提出假设、进行实验、观察结果、并相应地更新原则”(making hypotheses, running experiments, observing results, and updating principles accordingly)。
同样地,“智能体必须扎根于真实世界的数据,才能推翻错误的思维方法”(an agent must be grounded in real-world data in order to overturn fallacious methods of thought)。这种扎根提供了一个反馈循环,让智能体能够“根据现实检验其继承的假设,并发现不受当前主流人类思维模式限制的新原则”(test its inherited assumptions against reality and discover new principles that are not limited by current, dominant modes of human thought)。否则,无论多么复杂的AI,都将成为“现有 人类知识的回音室”(an echo chamber of existing human knowledge)。
如何实现这种“扎根的思考”?一种可能的方式是构建“世界模型”(world model)。世界模型能够预测智能体行动对世界产生的后果,包括预测奖励。例如,健康助手在推荐去健身房还是听健康播客之前,它的世界模型可以预测这两种行动分别会对用户的心率、睡眠模式以及未来的对话产生什么影响。这使得智能体能够“直接根据其自身行动及其对世界的因果效应进行规划”(plan directly in terms of its own actions and their causal effect upon the world)。随着智能体在体验流中与世界持续互动,它的世界模型也会不断更新,纠正预测中的错误。
需要注意的是,基于世界模型的规划与LLM的内部推理并非相互排斥,它们可以结合使用。
这种从“模仿人类思考”到“基于世界模型和真实反馈进行推理规划”的转变,意味着AI可能发展出我们难以理解但却更有效的“思考”方式。就像AlphaGo下出人类棋手从未想过的“神之一手”一样,体验时代的AI可能在更广泛的领域,带给我们源于“机器直觉”和“世界经验”的惊喜。这让人想起科幻作家刘慈欣在《三体》中描述的,“思想钢印”的可怕之处在于它限制了思维的可能性。而体验时代的AI,则有望打破人类思维的“钢印”,探索更广阔的认知空间。
▲《银翼杀手2049》剧照
「伍」
为什么是现在?历史的浪潮与技术的交汇
“从经验中学习”并非新概念。强化学习(RL)早已存在,并在所谓的“模拟时代”(Era of Simulation)取得了辉煌成就。从上世纪90年代的TD-Gammon(西洋双陆棋),到本世纪的AlphaGo(围棋)、AlphaZero(国际象棋、将棋、围棋)、Libratus/DeepStack(扑克)、AlphaStar(星际争霸II)、OpenAI Five(Dota 2)、Stratego智能体、以及在魔方机器人、数据中心冷却、赛车游戏等任务上,RL智能体都达到了甚至超越了人类顶尖水平。特别是AlphaZero等系统展现了“令人印象深刻且潜力无限的可扩展性”(impressive and potentially unlimited scalability)。
然而,这些基于模拟环境的成功,未能跨越“从模拟(具有单一、精确定义奖励的封闭问题)到现实(具有多种看似定义不清的奖励的开放式问题)”的鸿沟。
随后,“人类数据时代”(Era of Human Data)到来了。海量的文本和图像数据使得LLMs等模型能够处理“极其多样化的任务”(huge diversity of tasks),实现了比模拟时代“更狭窄成功”更广泛的能力。于是,研究重心转向了以人类数据为中心的AI,RL在一段时间内似乎“被很大程度上抛弃了”(largely discarded)。
但是,作者认为,“在这种转变中失去了一些东西:智能体自我发现知识的能力”(something was lost in this transition: an agent's ability to self-discover its own knowledge))。AlphaZero能发现人类从未想过的棋局策略,改变了围棋和象棋的玩法。
而现在,“体验时代”将调和“自我发现知识的能力”与“人类数据时代实现的任务通用性”(reconcile this ability with the level of task-generality achieved in the era of human data)。为什么是现在?作者认为时机已经成熟:
1.自主智能体的出现:能够与复杂、真实的行动空间(如操作系统界面)交互的自主智能体开始涌现。
2.强大RL方法的突破:能够在丰富的推理空间中解决开放式问题的强大RL方法取得进展,例如AlphaProof在数学奥林匹克问题上的成功和DeepSeek-RL在激励LLM推理能力上的探索。
3.连接现实世界:智能体能够通过丰富的观察和行动流自主地与现实世界互动,并且奖励可以灵活地与大量扎根的现实世界信号相连。
这三个条件的成熟,预示着“向体验时代的过渡迫在眉睫”(the transition to the era of experience is imminent)。
同时,作者也呼吁重新审视和改进经典的RL概念。人类数据时代的RLHF等技术虽然有效,但也“绕过了核心的RL概念”(bypassed core RL concepts),例如用人类专家替代了价值函数估计,人类数据的强先验减少了对探索的需求,以人为中心的推理削弱了对世界模型和时间抽象的需求。这导致AI性能受限于人类知识。体验时代需要我们重新拾起并发展那些适用于“长期、扎根、自主互动流”(long streams of grounded, autonomous interaction)的RL方法,例如:
灵活地基于观察数据定义奖励函数。从长期、不完整的序列中估计价值函数。开发原则性且实用的真实世界探索方法,发现与人类先验根本不同的新行为。构建能捕捉扎根交互复杂性的世界模型。发展新的时间抽象方法,让智能体能在更长的时间尺度上基于经验进行推理。通过在RL基础之上进行创新,适应新时代的需求,我们才能“释放自主学习的全部潜力,并为真正超人的智能铺平道路”(unlock the full potential of autonomous learning and pave the way to truly superhuman intelligence)。
▲《银翼杀手2049》剧照
「陆」
机遇与隐忧:拥抱体验时代的审慎思考
一个能够通过与世界互动不断学习、进化,并可能超越人类能力的AI时代,无疑带来了巨大的想象空间,但也伴随着深刻的挑战和风险。
机遇(Positive Side):
1.个性化服务的极致:在日常生活中,个性化助手将能真正理解我们的长期需求。“在数月或数年的过程中,适应个人的健康、教育或职业需求,以实现长期目标”(adapt to individuals' health, educational, or professional needs towards long-term goals over the course of months or years)。
2.科学发现的加速器:这可能是最具变革性的影响。“AI智能体将自主设计和进行实验”,在材料科学、医学、硬件设计等领域,“通过不断从自身实验结果中学习,这些智能体可以迅速探索新的知识前沿,以前所未有的速度开发出新材料、药物和技术”(By continuously learning from the results of their own experiments, these agents could rapidly explore new frontiers of knowledge, leading to the development of novel materials, drugs, and technologies at an unprecedented pace)。正如AlphaFold改变了蛋白质结构预测领域,体验时代的AI有望在更广泛的科学领域扮演“虚拟科学家”的角色。
挑战与风险(Challenges and Risks):
1.就业冲击:自动化能力的提升可能导致更广泛的“工作岗位流失”(job displacement)。特别是当AI开始掌握“以前被认为是人类专属领域的能力,例如长期解决问题、创新以及对现实世界后果的深刻理解”(capabilities previously considered the exclusive realm of humanity, such as long-term problem-solving, innovation, and a deep understanding of real world consequences)时,其影响可能更为深远。
2.滥用风险与控制难题:能够长期自主与世界互动的AI带来了新的风险。“默认情况下,这为人类干预和调解智能体行动提供了更少机会,因此需要高标准的信任和责任”(By default, this provides fewer opportunities for humans to intervene and mediate the agent's actions, and therefore requires a high bar of trust and responsibility)。如何确保这些强大的智能体目标始终与人类福祉一致,是一个巨大的挑战。
3.可解释性难题:脱离人类数据和人类思维模式,可能使未来的AI系统“更难解释”(harder to interpret)。理解AI的决策过程将变得更加困难。
潜在的安全益处(Potential Safety Benefits):
1.环境适应性:体验式智能体“意识到它所处的环境”,其行为可以“随着时间的推移适应环境的变化”(aware of the environment it is situated within, and its behaviour can adapt over time to changes in that environment)。相比之下,任何预先编程的、固定的AI系统都可能对其环境背景“一无所知”,并变得“与其部署到的变化世界不适应”(maladapted to the changing world into which it is deployed)。例如,面对硬件故障、社会剧变或新的科学发现,体验式智能体可以观察、学习并适应,甚至可以“识别其行为何时引发人类担忧、不满或痛苦,并适应性地修改其行为以避免这些负面后果”(recognise when its behaviour is triggering human concern, dissatisfaction, or distress, and adaptively modify its behaviour to avoid these negative consequences)。这提供了一种动态的安全保障机制。
2.奖励函数的适应性:如前所述,奖励函数本身可以通过经验进行调整(例如,双层优化)。这意味着“错位的奖励函数通常可以通过试错逐步纠正”(misaligned reward functions can often be incrementally corrected over time by trial and error)。例如,与其盲目地最大化“回形针”数量直到耗尽地球资源,奖励函数可以“根据人类担忧的迹象进行修改”(modified, based upon indications of human concern)。这类似于人类社会中目标设定和调整的过程,尽管作者也谨慎地补充道,“也像人类目标设定一样,不能保证完美对齐”(although also like human goal-setting, there is no guarantee of perfect alignment)。
3.物理世界的天然制动:依赖物理经验的进步“受到在现实世界中执行行动并观察其后果所需时间的内在限制”(inherently constrained by the time it takes to execute actions in the real world and observe their consequences)。例如,开发新药即使有AI辅助设计,仍需要无法一蹴而就的真实世界试验。这可能为AI潜在的自我改进速度提供一个“自然的刹车”(natural brake)。
▲《银翼杀手2049》剧照
「柒」
结尾:站在新时代的门槛上,我们当如何自处?
Silver和Sutton的这篇《体验时代》如同一份宣言,宣告人工智能正站在一个新的历史关口。它告诉我们,仅仅满足于让AI模仿人类的“已知”,是远远不够的。真正的突破,甚至超人智能的诞生,或许蕴藏在让AI像我们一样,甚至比我们更能干地去“体验”这个复杂而真实的世界之中。
“体验”这个词,充满了生命力和能动性。它意味着试错、感受、互动、适应和成长。当AI开始拥有自己的“体验流”,用扎根于环境的“感官”和“肢体”去行动,以真实世界的“反馈”作为奖惩,并发展出基于“世界模型”而非人类语言的“思考”方式时,它们将不再是冰冷的程序代码,而更像是拥有了自主学习和进化能力的“数字生命体”。
这不禁让我们联想到近年来中国科技界和社会广泛讨论的“具身智能”(Embodied AI)概念。虽然《体验时代》并未直接使用这个术语,但其核心思想与具身智能强调智能体需要拥有身体、与环境进行物理交互以实现更高级智能的理念高度契合。无论是操作电脑的数字智能体,还是未来可能控制机器人的物理智能体,其本质都是要突破“纯粹的数字模拟”,进入“与世界互动”的体验循环。
当然,正如作者所坦诚的,这个新时代也带来了前所未有的伦理、社会和安全挑战。当AI拥有更强的自主性、更长的行动周期、更难被理解的思维模式时,如何确保其发展始终“以人为本”,如何防范潜在风险,如何应对可能带来的社会结构变革,将是全人类必须共同面对和解答的课题。2023年底以来,全球范围内关于AI治理的讨论日益升温,各国政府和国际组织都在积极探索建立有效的监管框架,例如欧盟的《人工智能法案》(AI Act)、联合国成立AI咨询机构等,都反映了这种紧迫性。Silver和Sutton提出的体验式学习可能带来的安全益处(如环境适应性、奖励函数可调整性)为我们提供了一些新的思考角度,但也绝不能因此掉以轻心。
《体验时代》描绘的未来并非遥不可及,它的序幕或许已经拉开。作为身处其中的我们,除了惊叹于技术的飞速发展,更应保持一份清醒的认知和积极的姿态。我们需要理解这场变革的深刻含义,思考它将如何影响我们的工作、生活和社会;我们需要参与到关于AI伦理和治理的讨论中,贡献我们的智慧和价值观;我们需要不断学习,提升自身能力,以适应一个人机协同日益紧密的新时代。
最终,体验时代的AI将走向何方?它会成为我们解决气候变化、疾病、贫困等全球性挑战的强大盟友,还是带来难以预料的风险?答案或许并不唯一,它取决于我们今天做出的选择和行动。正如Silver和Sutton在文末所言,这个范式转变将“在许多领域解锁超越任何人类所拥有的新能力”(unlock in many domains new capabilities that surpass those possessed by any human)。面对这份潜力无限但也责任重大的未来,我们准备好了吗?这篇论文,正是向我们每个人发出的邀请函,邀请我们一同思考和塑造这个即将到来的“体验时代”。
来源:人工智能学家