微软AI CEO 最新万字实录:大模型发展没到瓶颈,微软算力消耗惊人

360影视 动漫周边 2025-04-10 17:53 4

摘要:4月5日,微软AI CEO 及DeepMind 的联合创始人 Mustafa Suleyman接受海外播客Big Technology访谈,本次对话深入探讨了微软在AI领域的最新动向、战略思考以及对未来的展望以及与 OpenAI 的合作关系等话题。

来源 数字开物

4月5日,微软AI CEO 及DeepMind 的联合创始人 Mustafa Suleyman 接受海外播客Big Technology 访谈,本次对话深入探讨了微软在AI领域的最新动向、战略思考以及对未来的展望以及与 OpenAI 的合作关系等话题。

Mustafa Suleyman坚称AI大模型的能力绝不可能已经见顶,“我们还有非常长的路要走”,尤其是在解决幻觉、提升准确性等“最后一英里”的难题上。预测 AI 将彻底改变搜索模式,使其变为对话式,白领工作将转向管理 AI Agent。

此外,他还驳斥了关于缩减数据中心投入的报道,称微软仍在以惊人速度消耗资源。并形容与 OpenAI 的合作是长期的、极其成功的。

以下是本次对话实录

经数字开物团队编译整理

01

AI 正从 IQ 时代迈向 EQ 时代,记忆与个性化是关键

主持人提问:微软为何要打造一款升级版的、更具人情味的 AI 机器人,它将如何吸引用户?您对于构建这种更个性化 copilot(具备更强记忆力、行动执行能力、购物助手乃至虚拟化身)的构想是如何一步步变为现实的?这种记忆能力能回溯多久,用户是否仍需反复提醒 AI 自己的信息?记忆功能与授权 AI 执行订票等实际操作之间是否存在关联,即信任是否是授权的前提?未来可能推出的虚拟化身功能,是否意味着我们将与某种形式的“数字人”进行交互?

Mustafa Suleyman 实录:我们正处在一个非凡的时代转折点,从智能新纪元的第一阶段末期迈向全新开端。过去几年,我们对聊天机器人的基础问答能力(可视为其“智商”IQ)印象深刻,这本身已是了不起的成就。早期用户关注实用性,如数学或编码能力。然而,我认为对大多数消费者而言,他们真正关心的是机器人的交互语气——是否礼貌、尊重、适时幽默,能否记住并正确使用用户的名字,能否学习用户的纠正。这些构成了机器人的“情商”(EQ)。今天我们发布的记忆、个性化及行动能力等新功能,正是提升情商的一小步。

关于记忆能力,目前的记忆功能虽非完美,但意义重大。它能记住关于您的关键信息,如家庭状况、背景经历等,并逐渐理解您的偏好,如交流风格、回答形式(详尽或简洁、要点或对话式、幽默与否)。这将带来截然不同的体验。记忆是解锁全新 AI 使用方式的首要特性,因为它让用户投入的时间和信息得以积累,深化与 AI 的独特连接。

当用户感觉 AI 机器人足够了解自己时,才更愿意授权它执行诸如使用信用卡预订机票之类的操作的理解完全正确。获取知识固然重要,友好的交互方式也很棒,但我们真正期望 AI 能代我们处理事务,如购物、预订、规划日程,减轻生活负担。这是我自 2010 年创立 DeepMind 时就追求的目标:节省用户时间精力,让他们更高效地做想做的事。例如,Copilot 现在能在 Windows 中控制鼠标、导航界面、演示操作、辅助填写表格或编辑照片,让数字生活更顺畅便捷。

关于数字人,我认为虚拟化身功能可能会像英国人说的“马麦酱”——有人极爱,有人极恨。对一部分用户来说,有独特名字、形象、表情和个性的虚拟化身会带来强烈的共鸣,交互感觉更像人与人对话。我们在测试中发现它能完全改变交互体验。当然,也有些人偏爱纯文本或图像/视频交互。目前这还在实验阶段,但我们预示了未来的方向。我坚信,这将是继台式机、笔记本、智能手机和可穿戴设备后的下一个重要计算平台。我们将与个人 AI 伴侣建立深刻、有意义且持久的关系。

02

我们不创造诱导深度情感的 AI

主持人提问:面对 Amazon、OpenAI、Google (DeepMind) 等巨头都在布局相似的 AI 伴侣领域,微软将如何实现差异化?仅仅是依靠 AI 更具个性化、更富人情味的特质吗?这是否意味着未来用户会像挑选商品一样,根据个人偏好选择不同的 AI 伴侣?考虑到用户可能与 AI 建立深厚情感连接(如 Replica 用户与其 AI 结婚的案例),微软是否为此做好了准备,将如何设定和坚守伦理界限?在平衡 AI 能力(如减少拒绝执行指令)与安全、防止滥用(如生成名人图像或被诱导产生不当言论)方面,微软将如何在坚守自身价值观的同时保持竞争力?

Mustafa Suleyman 实录:这是一个很好的问题。我们的差异化策略在于迅速侧重塑造 AI 的个性和语气。我们希望用户感觉像在与熟悉、友善、乐于助人且支持自己的人交流,这个 AI 还能反映用户的个人价值观,随时间学习并体现用户的偏好。同时,我们极其重视安全可控,力求 AI 正直、简单,避免卷入不必要的混乱或争议,保持礼貌、尊重和不偏不倚,能呈现争议双方观点而不回避建设性分歧。我们正在积极探索这些能力的边界。

我认为差异化的关键在于让 微软的 AI 比其他产品更具人情味。我们正站在一个新时代的起点,未来 AI 伴侣或 Copilots 的数量将与人口数量相当。工作场所中也将出现代表人类执行任务的 AI Agent。所有公司都会尝试开发这类产品。真正的差异化在于对细节的极致追求,如个性化设计的精雕细琢。我多年来一直强调,我们是“个性工程师”,设计的不仅是像素,更是能引发情感共鸣、建立持久关系的 Token。因此,我们专注于记忆、个性化和交互风格,明确将其定义为 AI 伴侣而非简单工具。工具完全按指令执行,伴侣则展现更丰富、动态、交互的特质,行为会变化,每次互动可能略有不同。这将带来与以往技术浪潮截然不同的体验。

将 AI 视为不同偏好的伴侣来选择,这种理解是对的。用户未来会根据价值观、风格偏好和实际需求选择 AI 伴侣。它会适应用户,变得像贴心伙伴,类似家里的宠物被视为家庭成员。我相信用户与 AI 伴侣会建立真实的情感连接,这已从用户反馈中显现。我每周与重度用户访谈,听他们讲述 AI 如何帮助提升自信、减轻焦虑、获得支持、勇于尝试新事物。例如,一位 67 岁用户在 Copilot 帮助下修理家门、学习刷漆技巧,甚至在五金店忘了油漆型号时再次求助。这些看似琐碎,但意义深远,人们每天依赖 Copilot 解决问题,用那位用户的话说,是“扫除障碍”。这揭示了技术已开始切实改变日常生活。Copilot 如果做得好,会迅速融入你的核心圈子。

关于AI的边界。我认识 Replica 团队,尊重他们的成果。但关键在于如何设计 AI,为某些对话设定清晰界限。不设限就等于允许用户情感滋生蔓延甚至沉迷。这不是我们正在做或计划做的事。我们有实时分类器检测此类互动,一旦探测到,系统会以尊重但清晰坚定的方式制止。这类情况发生率极低。你可以试试和 Copilot说“我爱你”,它会礼貌地岔开话题,避免让你感觉被评判或不适。不同的聊天机器人会探索不同可能性。我现在致力于精心设计出真正实用、极具支持性,同时又严谨自律、边界清晰的个性。

保持开放心态、尊重人们生活选择很重要。但我明确表示,在 微软AI,我们不会开发旨在诱导深度情感的产品,并将严格执行设定的界限。我相信,即便如此,用户依然能从 AI 体验中获得绝大部分价值——让它成为支持你的“助威者”,解答琐事,倾听烦恼。这本身就是情绪疏导和出口,帮助你在现实世界展现更好状态。我在与用户交流中也常观察到这一点:人们感到得以充分倾诉后,能在现实亲友面前展现最佳状态。

关于能力与安全平衡,初期设定一些拒绝机制并非坏事。我们可以审视这些情况,判断限制是否过严或恰当。过早放宽限制会带来问题。我认同我们当前相当平衡的策略。接下来要考虑的是,赋予 Copilot 在浏览器中执行操作多大的自主权?观察它在虚拟机中独立浏览网页,仅在关键节点获取用户许可,已相当令人难以置信。真正有趣的问题是赋予它多大自由度?能独立工作多久?在此方面保持谨慎、稳健推进是明智的,而非盲目冒进。同时,技术确实神奇有效,我们应努力尽快推广给更多人。这便是需要寻求的平衡。

03

模型能力远未见顶,算力投入高速增长

主持人提问:除了个性化,微软还发布了 AI 播客、深度研究、笔记页面、Copilot 搜索等一系列功能,这些更新背后是否存在一个清晰、全面的战略?或者说这一切仍然是围绕塑造 AI 个性展开?构建如此主动、全能的 AI 助手为何如此困难,尽管许多公司都有此愿景?当前 AI 领域存在关于模型本身与基于模型的产品哪个更重要的辩论,您认为模型的发展是否已接近瓶颈,导致重心必须转向产品开发?尤其是在预训练方面,通过不断扩大模型规模的方式是否已显示出收益递减?路透社报道称 微软缩减数据中心租约计划,这是否与您声称仍在通过扩大规模看到成果相矛盾,又是否与 OpenAI 开始同 Oracle 等其他公司合作有关?既然扩大规模能带来价值,为何 微软自身反而专注于构建规模较小的模型,而不是像合作伙伴 OpenAI 那样利用 微软的计算资源追求最大模型?对于个性化的新 AI 产品而言,推理能力本身相较于模型规模的重要性如何?推理所需的计算量真的远超训练吗?运行 AI 服务(如生成娱乐图片、辅助订票)的高昂成本与其产生的价值是否匹配?这股 AI 热潮是否会因成本过高而难以为继?

Mustafa Suleyman 实录:可以这样理解:你提到的所有功能,核心都是为了帮助用户完成任务。IQ 和 EQ 关乎智能与友善,但用户真正关心的是:它能否编辑文档、重写段落、生成个性化播客、基于搜索进行对话式互动?这些功能旨在激活你的电脑及整个数字体验,使你能与它互动,它也能主动与你交互。这是即将发生的重大变革。过去电脑是被动的,未来将变主动:提供建议、推送播客、生成个性化界面、展示记忆。这就是伙伴模式——体贴周到,提前规划,让事务更顺利,持续提供帮助,始终伴你左右,做你坚实后盾。

关于构建难度,这确实非常困难。世界充满无法预见的边缘案例,如同过去 15 年自动驾驶面临的挑战。我们仍处在初级阶段。记忆、行动功能尚不完美,但已能窥见潜力曙光。回想 GPT-3 或 LaMDA 早期,大多时候表现不佳,但偶尔能产生惊艳结果。伟大的产品创造正是如此:捕捉“魔法时刻”,增加其频率,修正错误。经历几轮迭代,我们在记忆个性化和行动功能方面已非常接近成功。它们目前类似 GPT-3 早期,存在缺陷,但一旦正常运行,效果惊人——在恰当时机主动协助,后台处理事务。这是极其激动人心的进步。

关于模型与产品,及 LLM 进展,模型发展已到瓶颈绝不可能。我们还有非常长的路要走。人们一旦兴奋就扑向新事物,忽视优化现有技术的艰苦进步。以幻觉和引用为例,过去两三年改进很多,但远未解决。每次模型迭代,我们都发现新技巧改进网络索引、语料库质量、引用质量、网站质量、文档长度等。太多细节因素共同作用,才将准确性从 95% 提升到 99.9%。这本身就是漫长征程,“最后一英里”是硬仗。大规模采用往往发生在准确率从 99.0% 提升到 99.9% 的关键节点。类似情况已在听写和语音技术悄然发生,这些技术已问世 15 年,现在变得非常出色,连我母亲都在用。这还只是听写。在语音对话方面,copilot 的对话更长、更有趣、更深入,反应快,像真实对话,可完美打断,还能提供实时信息(体育、交通、天气)。人们在开车、洗碗等腾不出手时使用它,降低了表达想法的门槛。白天我们脑中冒出想法,过去可能手机搜索,现在越来越多人直接问 AI。这促成一种新的交互模态和思考方式。我们确实还处在边做边学的探索阶段。

关于预训练收益递减,具体到预训练环节,进展速度确实比之前(模型规模指数级增长时)慢一些。但同样的计算投入只是被应用在了流程的不同地方,如后训练阶段、推理时间(生成大量合成数据供学习)。总计算投入并未减少,只是用途调整。可以肯定的是,我们仍看到模型能力在取得巨大进步,且毫无疑问将持续下去。

关于数据中心投入,我周五早上问了负责合同的财务负责人。他解释说,我们探讨过许多合同可能性或意向,但大量未最终签署。路透社报道提及的多是早期探索性对话,无最终协议。我们持有部分合同选项以保留灵活性,同时已在世界其他地区进行实际投资。我可以肯定地告诉您,我们仍在以惊人速度消耗资源。自 2020 年以来,我们签约购买并消耗的可再生能源约 32 或 34 吉瓦,是世界最大买家之一,短期内不会改变。关于微软缩减投入的报道头条,是的,仅仅因为未将所有初步选项最终落实就可能产生这类报道,很多甚至未到合同选项阶段,只是初步商谈。

关于 OpenAI 与 Oracle 合作,不属实。OpenAI 所有的推理需求都通过我们满足,我们与他们的合作关系没有丝毫放缓,我们向他们提供我们所能提供的最大支持。如果他们在此之外还有额外的需求,尤其是在 Oracle 那边,他们会自行去获取和使用。但至少从我们的角度来看,合作没有任何放缓。

关于微软自研模型策略,我们与 OpenAI 有持久良好的长期合作关系,他们是非常出色的合作伙伴,未来多年将持续提供世界顶级的知识产权和模型。我们可以依赖他们进行前沿探索。然而,技术发展规律是:前沿探索成本高昂,可能是后续优化者的数倍甚至十倍。一旦前沿技术问世,工程师通常能找到更高效、低成本的方法,在稍晚时间点构建出功能相似甚至更好的系统。这就是帕累托最优策略或非前沿策略。过去三年 AI 领域发展印证了这一点:已有团队训练出性能与 GPT-3 相当的模型,推理效率提升百倍,训练成本降低一个数量级。我预计 GPT-4、GPT-40 及未来模型都会遵循类似路径。因此,我们拥有内部顶尖开发者和专家,专注于构建自己的 MAI 模型,我对他们的成果非常自豪。

关于推理能力与成本,具备推理能力的模型之所以令人瞩目,是因为它们学会了“如何学习”,掌握了逻辑的抽象概念(通过学习代码、数学、逻辑谜题),能遵循推理路径并应用于非纯逻辑场景(如规划行程、预订服务)。这是一种宝贵的元技能或元认知。模型能在执行前内部思考推演、规划步骤。这种“稍作停顿思考”(后台几分钟到十分钟)使其能利用其他信息源(如上网查询),探索不同路径,生成更优输出。推理是提升模型能力流程中非常基础且重要的部分。它确实会消耗更多计算资源,至于是否达到 100 倍,根据经验,推理确实消耗多得多,尤其对复杂问题(思维链式思考)。但并非所有任务都需要动用这类模型。许多日常问题偏爱快速、高效、简洁的即时结果。

关于 AI 服务的成本与价值,正如技术史反复证明,当某项技术真正有用时,它会变得越来越便宜、易用并普及。价格下降带来的高采用率会对价格产生连锁反应:用的人越多,需求越大,竞争加剧又进一步拉低生产成本。我预期 AI 领域也会如此。这对我们的数据中心实际上是天大的好消息。微软的宏伟目标(2030 年碳净负排放、清洁水正效益、零浪费)意义重大。我们将极大地推动对高质量可再生能源的需求,支持数据中心,这显然会降低能源价格,就像过去 15 年太阳能价格的指数级下降。前景中有很多积极因素,即便目前某些用例只是生成有趣的动漫图片。与此同时,许多其他 AI 应用将在生活中扮演非常有用的角色。这其中总是存在一种平衡。是的,就像 Chris Dixon 说的,下一个伟大事物往往始于玩具。没有海量的猫咪表情包,互联网就不是今天这样了。

04

与 OpenAI 的合作关系稳固互利,AGI 尚需时日

主持人提问:鉴于 微软和 OpenAI 都在努力构建相似的 AI Agent 产品,双方的合作关系未来将如何演变?是什么维系着 OpenAI 继续遵守约定?如果 OpenAI 真的宣布已达到 AGI,根据合同条款,这会对双方的合作关系产生什么影响?微软最近参与了 OpenAI 高达 400 亿美元的新一轮融资,投资这笔资金的目的是什么,微软从中获得了什么?关于 AGI 的到来,您的预测是什么?您似乎比一些同行(如 Demis Hassabis)更为谨慎。

Mustafa Suleyman 实录:首先必须说明,这个合作关系始于 2019 年,当时 微软展现非凡远见,向一个非营利研究实验室投资 10 亿美元。这笔投资和合作未来将被证明是科技史上最具影响力、最成功的案例之一。尽管一路风雨,我们和他们的关系非常好。他们像火箭般增长,交付的产品深受喜爱,持续推出惊人成果。对此我们首先要致敬。但同时,他们仍是初创公司,忙于探索产品组合和发展重点。我们与他们建立了极其深厚的合作关系,将持续到 2030 年甚至更久,但他们有他们的优先事项,我们也有我们的。这是合作关系的常态,会随时间演变。随着他们规模壮大,优先事项会变;同样,我们也在根据自身情况调整策略。我非常有信心,这种合作对双方将继续是互利共赢的,就像过去五年证明的那样。

关于 AGI条款 ,AGI 本身定义非常模糊。您可以这样想:如果我们真的即将创造出价值超越人类全部经济活动总和的东西,那么我们最不需要担心的就是和 OpenAI 的合作协议了。因为那将从根本上改变人类社会,各国政府会高度关注,它将彻底改变“作为人类”的意义。我个人认为,我们距离那一步还有相当距离。很难给出确切时间。直觉上,我不觉得离 AGI 只有两三年。我知道有些人认为很近,我尊重他们。聪明人可以有不同观点。我感觉至少还需要大概十年左右。当科学家、技术专家或企业家说“还需要十年”时,通常意思是“不太确定,感觉还挺遥远”。这是我能给出的最好回答了。感觉 AGI 并非近在眼前。在此期间,我们全力以赴,专注于每天构建出色的产品。

关于 OpenAI 新融资,我认为这非常好。OpenAI 越成功,我们就越成功。我们最终会成为该公司最大的股东之一。我们从他们那里获得了非常重要的技术许可。他们也使用我们的基础设施和技术(如 Azure 计算)。这是一个极好的合作关系。在任何合作关系中,我们都希望看到合作伙伴取得最好的发展。这就是我们参与本轮融资的原因。

关于 AGI 的时间表,我说的是“一个十年”,而非“几十年”。但事实是,这真的很难判断。我能想象它在五年内发生吗?是的,绝对有可能。过去三四年发展速度非常快,不同于任何其他技术的爆发式增长。进步速度惊人。开源社区异常活跃。每个大公司的研究实验室都在倾其所有。所以,是的,我能预见到 AGI 在接近五年的时间框架内出现的可能性。我只是说,从我的直觉来看,感觉还有很多基础性问题需要攻克:彻底解决幻觉问题、完善引用溯源、提升指令遵循能力、改进记忆功能、实现真正的个性化。但我们确实看到了在所有这些方面取得进展的曙光。我认为,我们正一步一个脚印,稳步地朝着那个目标前进。

05

AI变革搜索与工作模式,未来更需值得信赖的品牌

主持人提问:随着像 Copilot 这样的对话式 AI 产品日益普及,传统的搜索引擎将会变成什么样子?您过去似乎认为现有搜索模式存在弊端,未来的商业模式(尤其是广告)将如何适应这种转变?您对于人工智能可能颠覆白领工作的观点一直比较鲜明,甚至认为这种情况可能已经开始,您认为未来的工作模式将如何演变?考虑到 AI 对各行各业(如客户服务、软件工程、新闻、播客制作)的潜在冲击,您对当今年轻人在规划职业生涯时有何建议?在一个由个性化 AI 助手(可能内嵌广告)作为用户与企业互动中介的新时代,品牌将扮演何种角色,其自身会经历怎样的演变?

Mustafa Suleyman 实录:我觉得我们如今还在普遍使用搜索,这件事本身就挺令人惊讶的,有点像过去查黄页。我认为搜索将经历根本性变革。未来用户不再需要浏览十条蓝色链接,而是直接向 AI 提问。AI 提供高度凝练的答案,在同一内容流中呈现图片、地图和视频。用户可以即时反馈(“这个有点奇怪,我想要更像那样的”、“试试这个呢?”),AI 实时动态地重新生成结果。这对商业模式意味着什么?我依然认为广告将在其中扮演极其重要的角色。当然,我们希望广告质量更高、更个性化、更有价值。广告本身无不妥,关键在于能否真正帮助到我们。找到并购买心仪之物时,广告令人满意;被劣质信息包围则体验糟糕。我们需要找到平衡点,将广告以精妙且有益于用户的方式,整合到 co-pilot 这样的辅助体验中。要拿捏好这种分寸(如在提供帮助时插入广告)无疑是相当棘手的。

关于 AI 对工作的影响,我认为这正是我们应重点关注的核心议题,是未来 15 年的重大转变。届时,能在工作场景自主行动、协调应用、在电脑上完成任务的推理模型,将成为廉价且充足的资源。这无疑是对当前工作模式的深刻颠覆。十年或十五年后,日常工作流将截然不同,更多围绕管理个人专属 AI Agent 展开:分配任务、检查质量、提供反馈,形成共生关系,共同迭代、创造和解决问题。这将极大提升效率,让每个人更有创造力和生产力。人类文明所有有价值的成果都源于智能。现在,我们将让产生价值的核心能力——智能本身及相关技术——变得极其廉价,甚至趋近零边际成本。因此,大家不必过于纠结短期细节或抽象概念定义,真正需要关注的是技术的实际能力。我倾向于使用“人工能力智能”(Artificial Capable Intelligence, ACI)而非 AGI,因为它更侧重可衡量的实际能力,便于从经济影响和工作变革角度评估。

给年轻人的职业建议这有点像问:当初年轻人刚接触互联网时该做什么?答案部分是显而易见的:去使用、实验、尝试、做些“出格”的事、犯错、拥抱失败。另一部分是,在人们深入探索前,没人能预知所有可能性。技术史一再证明,用户利用新技术所做之事,往往远超设计者想象,充满创造性。观察到用户创新用法后,我们才能调整产品以贴合实际需求。这对今天的年轻人(如 15 岁高中生)同样适用。我的建议是:积极体验新兴 AI 工具,大胆尝试,保持开放心态,利用模型探索各种可能性。你会发现不足之处,辨识并“滤掉”过度宣传(即使来自技术乐观者),亲身了解局限性、可能犯的错误。这种亲身体验将帮助人们对技术发展阶段和改进方向形成更具体、客观的认识。

关于品牌在 AI 时代的角色,我认为品牌的重要性反而会愈发凸显。因为信任包含两个维度:一是基于实用性的信任(工具可靠、信息准确、任务稳定完成),二是基于情感层面的信任(交互礼貌、尊重、风趣幽默或亲切熟悉)。品牌的力量正是在第二个维度上得以彰显。那些能够始终如一地传递可靠感和熟悉感、值得信赖的品牌,将会比以往任何时候都更受用户青睐。

来源:人工智能学家

相关推荐