Google 的 “world-model” 赌注:打造 AI 操作层

360影视 动漫周边 2025-05-26 21:54 2

摘要:在上周硅谷举行的 Google I/O 2025 活动中,经过连续三个小时的展示,越来越明显地表明:Google 正在以激光般的专注力整合其强大的 AI 能力 —— 该能力以 Gemini 命名,但实际上涵盖了多种底层模型架构和研究成果 —— 并以惊人的速度推

在上周硅谷举行的 Google I/O 2025 活动中,经过连续三个小时的展示,越来越明显地表明:Google 正在以激光般的专注力整合其强大的 AI 能力 —— 该能力以 Gemini 命名,但实际上涵盖了多种底层模型架构和研究成果 —— 并以惊人的速度推出一系列围绕这些能力的创新和技术,然后迅速将它们整合到各项产品中。

除了那些引人注目的热门功能之外,Google 还提出了一个更大胆的目标:为 AI 时代构建一个操作系统 —— 不是那种从磁盘启动的操作系统,而是一种每个应用程序都可以调用的逻辑层 —— 一个“世界模型”,旨在驱动一个能够理解我们物理环境、替我们思考并执行操作的通用助手。这是一场战略攻势,许多观察家可能在众多炫目功能中忽略了这一点。

一方面,这是一个赌注极高的战略,意在超越根深蒂固的竞争对手;但另一方面,正当 Google 向这个登月计划投入数十亿美元时,一个关键问题浮现:Google 在 AI 研究和技术方面的卓越能否转化为比竞争对手更快的产品能力,而竞争对手则凭借另一种同样出色的方法——把 AI 包装成即时可用且商业上极具吸引力的产品?Google 能否超越那专注激光般布局的 Microsoft,抵御 OpenAI 在垂直硬件领域的梦想,并且至关重要地在 AI 颠覆浪潮中保持其搜索帝国的生命力?

Google 已经在惊人的规模上着手构建这一未来。Pichai 在 I/O 上透露,公司目前每月处理 480 万亿个 Token —— 是一年前的 50 倍 —— 并且几乎是 Microsoft 的 Satya Nadella 所称每月处理 100 万亿个 Token 的 5 倍。这一增长势头也反映在开发者的采用率上,Pichai 表示目前已有超过 700 万开发者在使用 Gemini API 构建应用,自上一次 I/O 以来实现了五倍增长,而 Gemini 在 Vertex AI 上的使用量也激增了 40 多倍。随着 Gemini 2.5 模型和 Ironwood TPU 在每瓦特和每美元上的性能不断提升,单位成本也在持续下降。正处于美国推出中的 AI Mode 以及每月已有 15 亿用户受益的 AI Overviews,则成为了 Google 调整延迟、质量和未来广告格式的真实测试场,同时也预示着搜索正逐步迈向以 AI 为先的新时代。

Google 对其所谓“世界模型”的加码 —— 一种旨在赋予 AI 对现实世界动态深刻理解的能力 —— 以及由此构想出的由 Google 自主驱动、而非其他公司的通用助手,也制造了另一重大紧张局面:Google 希望在基于其搜索皇冠上的明珠构建的这位全知助手中掌握多少控制权?它究竟是主要希望优先为自身服务,以挽救其依赖拥有起点且需避免 OpenAI 颠覆的 2000 亿美元搜索业务?还是会完全开放其基础性的 AI,让其他开发者和公司也能利用 —— 这又代表了其业务中一大重要组成部分,涉及超过 2000 万开发者,远超其他任何公司?

有时它并未像敌手 Microsoft 那样以同样明晰的重点构建面向其他人的这些核心产品,因为它会将许多核心功能保留给其珍视的搜索引擎。不过,Google 正在大力努力为开发者提供尽可能的访问权限。一个意味深长的例子便是 Project Mariner。Google 本可以将代理式浏览器自动化功能直接嵌入 Chrome 中,以便在完全受控的 Google 平台上为消费者提供即时展示,然而,Google 随后表示,Mariner 的计算机操作能力将在“今年夏天”通过 Gemini API 更广泛地发布。这表明,任何想实现类似自动化的竞争对手都将有机会获得外部访问权限。实际上,Google 已表示合作伙伴 Automation Anywhere 和 UiPath 已经在基于该功能进行开发。

Google 的宏大设计:‘世界模型’与通用助手

Google 的宏大设计最清晰的阐述出现在 Google DeepMind CEO Demis Hassabis 于 I/O 主旨演讲中的发言中。他表示,Google 正在“加倍努力”推进通用人工智能(AGI)的相关工作。Hassabis 解释道,尽管 Gemini 已经是“最优秀的多模态模型”,但 Google 正在努力“将其扩展成为我们所称的世界模型。也就是说,这种模型能够制定计划,并通过模拟世界的某些方面来想象全新的体验,就像人脑所做的那样。”

正如 Hassabis 所诠释的“世界模型”概念,核心在于创造一种 AI,使其能够学习世界运作的基本原理 —— 模拟因果关系,理解直观物理定律,并最终通过观察学习,就像人类那样。一项早期的研究,也许对于那些未深入基础 AI 研究的人来说容易被忽略,但却是一项重要的指标,即 Google DeepMind 在 Genie 2 等模型上的工作。该研究展示了如何通过图像或文本等多种提示生成交互式二维游戏环境和可玩的世界,提供了一瞥能够模拟并理解动态系统的 AI 技术。

自 2024 年末以来,Hassabis 在多次讲座中逐步构建了这一“世界模型”概念及其作为“通用 AI 助手”的落地表现,并在 I/O 上最为全面地进行了展示 —— 当时 CEO Sundar Pichai 以及 Gemini 负责人 Josh Woodward 共同在同一舞台上呼应了这一愿景。(尽管其他 AI 领导者包括 Microsoft 的 Satya Nadella、OpenAI 的 Sam Altman 和 xAI 的 Elon Musk 都讨论过“世界模型”,但 Google 却以独特且全面的方式,将这一基础概念与其近期的战略重点 —— “通用 AI 助手” 结合在了一起。)

谈及 Gemini 应用(Google 对等于 OpenAI 的 ChatGPT 的产品),Hassabis 表示:“这就是我们对 Gemini 应用的终极愿景 —— 将其转变为一个通用 AI 助手,一个既具备个性化、主动性又极具强大能力的 AI,而这正是我们走向 AGI 过程中的关键里程碑之一。”

这一愿景通过 I/O 现场演示得到了具体体现。Google 展示了一款名为 Flow 的全新应用 —— 一种拖拽式电影制作画布,能够保持角色和镜头的一致性 —— 它依托于 Veo 3 这一新模型,该模型融合了物理感知视频和原生音频。对于 Hassabis 来说,这种结合初步证明了“世界模型”理解已经开始渗透进创意工具领域。至于机器人领域,他另外强调了经过精细调优的 Gemini Robotics 模型,并认为“AI 系统要想高效运作,将需要具备世界模型。”

CEO Sundar Pichai 也予以了确认,他提到 Project Astra,该项目“探索能够理解你周围世界的通用 AI 助手的未来能力。” Astra 所具备的能力,如实时视频理解和屏幕共享,如今已整合到 Gemini Live 中。负责 Google Labs 及 Gemini 应用的 Josh Woodward 则详细描述了该应用的目标 —— 成为“最具个性、最主动且最强大的 AI 助手。” 他展示了如何通过“个性化背景”(连接搜索历史,未来还将涵盖 Gmail / Calendar)使 Gemini 能够预见用户需求,例如提供个性化考试测验或者利用用户熟悉的类比(例如以骑行解释热力学)来定制讲解视频。Woodward 强调,这正是“我们与 Gemini 未来努力的方向”,该方向依托于 Gemini 2.5 Pro 模型,使用户能够“把想法变成现实。”

在 I/O 上公布的新开发者工具则是这场革命的基石。具备“Deep Think”功能的 Gemini 2.5 Pro 与高效的 2.5 Flash(现已通过 Gemini API 原生支持音频及 URL 上下文关联)构成了核心智能。Google 还悄然预览了 Gemini Diffusion,这表明当转向超越纯 Transformer 堆栈能带来更佳效率或更低延迟时,其已经做好了相应准备。Google 将这些能力整合进了一个功能齐全的工具包中:AI Studio 和 Firebase Studio 成为开发者核心的起点,而 Vertex AI 则依然是企业入门的不二平台。

战略博弈:捍卫搜索,吸引开发者,应对 AI 军备竞赛

这项庞大工程不仅得益于 Google 强大的研发能力,同时也出于战略上的迫切需求。一位财富 500 强公司的首席 AI 官员告诉 VentureBeat,在企业软件领域,Microsoft 占有相当大的优势,该公司以全力支持 Copilot 工具来安抚客户。由于评论 AI 云服务供应商之间激烈竞争的敏感性,这位高管要求匿名。他表示,Microsoft 在 Office 365 生产力应用中的统治地位非常难以通过一步步的功能比拼来撼动。

Google 可能成为行业领头羊的路径 —— 即其绕过 Microsoft 企业壁垒的“捷径” —— 在于通过一种从根本上更优越的、原生 AI 的交互模式重新定义游戏规则。如果 Google 能够交付由全面的世界模型驱动的真正“通用 AI 助手”,它便有可能成为一层必不可少的全新数字生活操作系统 —— 用户和企业与技术互动的有效基础层。如 Pichai 在 I/O 前与播客主持人 David Friedberg 探讨时所言,这意味着对物理环境的感知。因此,正如 Pichai 所说,AR 眼镜“也许是下一个飞跃……这才是让我感到兴奋的地方。”

然而,这场 AI 进攻正与多重时钟赛跑。首先,支撑 Google 的 2000 亿美元搜索广告引擎在重塑过程中必须得到保护。美国司法部的垄断判决仍然悬挂在 Google 头上 —— 分拆 Chrome 已经被提出来作为主要的解救方案。在欧洲,数字市场法以及日益增多的版权责任诉讼可能会限制 Gemini 对开放网络的抓取或展示。

最后,执行速度也至关重要。过去几年中,Google 一直因行动缓慢而受到批评。但在过去 12 个月中,事实证明 Google 在多个前沿领域默默耕耘,正因如此其增长速度已超过竞争对手。成功驾驭这场大规模 AI 转型的挑战十分艰巨,正如近期彭博社的报道显示,即使像 Apple 这样的科技巨头也在其 AI 进程中遭遇重大挫折并进行内部重组。这种全行业范围的困难凸显了各方所面临的高风险。虽然 Pichai 缺乏某些对手的表演魅力,但 Google 在上个月 Cloud Next 活动中展示的大量企业客户证言 —— 关于实际 AI 部署的种种案例 —— 证明了一个让持续产品步伐和企业成功说话的领导者的实力。

与此同时,竞争对手也在紧锣密鼓地前进。Microsoft 在企业领域的步伐依然坚定。在其 Build 大会上,Microsoft 365 Copilot 被展现为“AI 的用户界面”,Azure AI Foundry 则被称为“智能生产线”,而 Copilot Studio 则用于构建精密的代理,低代码工作流演示更是令人印象深刻(参见 Microsoft Build Keynote,Miti Joshi 22:52,Kadesha Kerr 51:26)。Nadella 提出的“开放型代理式网络”愿景为企业提供了一条务实的 AI 采用路径,使企业能够在以 Microsoft 为中心的框架内有选择性地整合 AI 技术 —— 无论这些技术是来自 Google 还是其他竞争对手。

与此同时,OpenAI 则凭借其 ChatGPT 产品的消费级触达率遥遥领先,近期该公司宣称其月活跃用户达 6 亿,周活跃用户达 8 亿;而 Gemini 应用的月活跃用户则为 4 亿。去年 12 月,OpenAI 推出了全面的搜索产品,并据称正在筹划广告业务 —— 这可能构成对 Google 搜索模式的存在性威胁。除了打造领先模型之外,OpenAI 还在做一场颇具挑衅意味的垂直整合,其以 65 亿美元收购 Jony Ive 的 IO 后,承诺要“超越这些传统产品” —— 并暗示将推出一款硬件产品,试图像 iPhone 对移动领域的颠覆那样颠覆 AI。尽管这些举措可能会对 Google 下一代个人计算愿景构成扰动,但同样不无道理的是,OpenAI 像 Apple 那样构建深厚护城河的能力,在一个越来越以开放协议(如 MCP)和模型更易互换为特征的 AI 时代中,可能会受到限制。

在内部,Google 正在驾驭其庞大的生态系统。正如 Google 开发者体验部门副总裁 Jeanine Banks 向 VentureBeat 表示,为全球多样化的开发者社区服务“没有一种通用的模式”,这导致其工具组合虽然丰富却有时也相当复杂 —— 包括 AI Studio、Vertex AI、Firebase Studio 及众多 API。

与此同时,Amazon 也从另一侧翼发力:Bedrock 已经托管了 Anthropic、Meta、Mistral 和 Cohere 的模型,为 AWS 客户提供了一种务实的、多模型的默认选择。

对于企业决策者来说:在 Google “世界模型”未来中的应对之道

Google 架构 AI 时代基础智能的大胆尝试,为企业领导者提供了诱人的机遇和关乎成败的关键考量:

立即行动或事后补救: 落后一个发布周期可能会迫使企业在通用助手界面成为默认配置时进行昂贵的重构。

利用革命性潜力: 对于那些期望拥抱最强大 AI 的组织而言,利用 Google 的“世界模型”研究、多模态能力(如 Woodward 在 I/O 上展示的 Veo 3 和 Imagen 4)以及 Google 所承诺的 AGI 发展轨迹,可能为其带来显著的创新突破。

为全新的交互模式做准备: 如果 Google 的“通用 AI 助手”取得成功,它将意味着服务及数据交互的主要新接口。企业应当通过 API 和具备情境感知能力的代理框架,提前策划整合方案。

兼顾长远(及其风险): 与 Google 的愿景保持一致意味着一项长期承诺。完整的“世界模型”和 AGI 或许仍是遥远的目标,决策者必须在权衡眼前需求与平台复杂性之间找到平衡。

对比专注型替代方案: 来自 Microsoft 的务实解决方案如今能够切实提升企业生产力,而 OpenAI / IO 所推出的颠覆性硬件 + AI 则展示了另一条截然不同的道路。在这一情形下,凭借多元化策略,灵活整合各家优势通常是较为明智的选择,特别是在日益开放的代理型网络为这种灵活性铺平道路的今天。

这些复杂的选择和切实可行的 AI 采用策略,将在下月 VentureBeat 主办的 Transform 2025 大会中成为讨论的焦点。该独立盛会将汇集企业技术决策者与开拓性公司的领导人,共同分享在平台选择(包括 Google、Microsoft 及其他)和 AI 部署方面的第一手经验。由于名额有限,建议尽早注册。

Google 的标志性攻势:塑造未来还是战略野心过度?

Google 的 I/O 现场展示发出了强烈信号:Google 意在构建并运营 AI 驱动未来的基础智能。其对“世界模型”及 AGI 追求的执着,目的在于重新定义计算方式,超越行业竞争对手,并巩固其霸主地位。这样的胆识令人瞩目;其技术前景同样潜力巨大。

关键问题在于执行与时机。Google 是否能比竞争对手更快地将其庞大的技术整合为一个连贯而引人注目的体验?在转型搜索、应对监管挑战的同时,能否兼顾面向消费者和企业的广泛布局 —— 这无疑比主要竞争对手面临的任务更为繁重?

未来几年将至关重要。如果 Google 能兑现其“世界模型”愿景,它或许将引领个人化、环境感知智能的新时代,实质上成为我们数字生活的新运营层。反之,其雄心壮志可能会成为一个巨头贪大求全,最终却发现未来由那些更专注、更迅速行动者定义的警示案例。

来源:至顶网

相关推荐