摘要:谷歌业务早已扩展至 Android、Chrome、搜索和 Workspace 以外 —— AI 是下一个主战场。从去年的 I/O 至今,公司已在 AI 领域推出多个重大进展。
内容简介
Google全家桶大升级
谷歌业务早已扩展至 Android、Chrome、搜索和 Workspace 以外 —— AI 是下一个主战场。从去年的 I/O 至今,公司已在 AI 领域推出多个重大进展。
【2025-5-21】一年一度的谷歌开发者大会(简称Google I/O),周二和周三在山景城海岸线圆形剧场开幕,一次性亮相N多产品功能,全家桶级
别的“攻击”:新模型、新功能、新硬件、新平台,几乎把整个科技生态拎出来洗了一遍。
从搜索升级到全知全能的AI助理、从图文视频生成到主打空间计算的XR眼镜、从编程工具到工作流自动化。
别说用户,现在哪怕是只猫,Google都能试着用AI服务。
内容很多,概括如下:
(1)Gemini 2.5 更快、更聪明、理论能力更强,Gemini 2.5 Pro Deep Think 模式
(2)内容生成工具:Veo、Imagen 和 Flow,下一代创作利器
(3)谷歌搜索全新 AI 模式
(4)Android XR:多模态 AI 助手,能够通过摄像头进行实时交互
(5)谷歌生态远景:将科幻场景的“世界模型”变成现实
详情:
(1)Gemini全家桶
Gemini 2.5 更快、更聪明、理论能力更强
Gemni全家桶
此次带来三个新版本:
① Gemini 2.5 Pro Deep Think:强化推理能力,专为数学、编程等高复杂度任务设计。在美国数学奥林匹克(USAMO)上拿下40.4%高分,表现超过GPT-4 Turbo。② Gemini 2.5 Flash:强调效率和成本,保持多模态理解的同时,toen使用减少30%,更适合高频日常调用。③ Gemini Diffusion:全新的扩散式文本生成模型,文本生成速度比以往快5倍,每秒可生成超过10,000 token,特别适合编辑和快速创作。Gemini 2.5 Pro 加入 “深度思考”(Deep Think) 功能,可进行多假设推理与高阶研究性思考。
Deep Think是新型增强推理模式,会探索多种假设,更有效地处理极其复杂的数学和编程问题。
2025 年美国数学奥林匹克竞赛(USAMO)和LiveCodeBench(竞赛级编程的高难度基准测试)测试都领先对手(OpenAI o3和o4-mini)
Deep Think工作原理没有说,猜测类似于 OpenAI o1-pro 和即将推出的 o3-pro 模型,可能使用引擎搜索并综合给定问题的最佳解决方案。
Deep Think 已通过 Gemini API 向 “可信测试人员” 开放,普通人还得等等。
Gemini 2.5 Flash 在推理、多模态、编码和响应效率等方面显著提升,所需 token 减少 20% - 30%。
Gemini diffusion 是使用扩散模型的LLM, 编码方面表现尤为出色。模型能以每秒 2000 个 token 的速度生成代码
谷歌还引入了原生音频生成功能,让模型说话时能保留语调、情绪甚至口音细节。你讲四川话,它也能跟上;你低声私语,它不会高声回应。
Gemini 2.5 现支持音视频输入,并在 Live API 预览版中提供原生语音输出,开发者可调整语音对话语气、口音和风格。
谷歌Gemini每月处理的 token 已经从去年的10 万亿飙升到480 万亿,翻了整整 50 倍。超 700 万名开发者正在用 Gemini 搭建 AI 应用,是去年的 5 倍,Vertex AI 上的使用量也增长了 40 倍。
Gemini 应用坐拥4 亿月活用户,其中使用 2.5 Pro 模型的用户活跃度上涨了 45%。
这次对Gemini APP 也进行了更新
iOS 和 Android 用户都可以使用 Gemini Live 读取相机和屏幕功能Canvas 和 Deep Research都进行了很多能力迭代Agent 模式即将推出(2)Imagen 4 图像模型发布
Imagen 4 生成速度比 Imagen 3 更快。而且,谷歌还会发布快 10 倍的 Imagen 4 变体。
Imagen 4 特点:
渲染织物、水滴和动物皮毛等 “精细细节”,处理写实和抽象风格,生成各种纵横比、最高 2K 分辨率的图像。支持多种宽高比及高达 2K 分辨率的图像生成,尤其适合印刷或演示场景。拼写和排版能力也显著提升,轻松创作贺卡、海报乃至漫画作品。示例:
(3) Veo 3
谷歌推出全新的视频生成模型Veo 3,在图像清晰度、物理模拟和细节控制上都实现了质的飞跃。
理解能力极强:只需在提示中输入一个简短故事,模型就能生成一段将其生动呈现的视频片段。
除了视频质量提升,还能同步生成音效和语音,更离谱的是,默认唇形同步。
Veo 3 直接生成真人播客对话视频,还能指定主题
这次要把视频编排 Agent 干掉了,Agent部分能力会被基座LLM侵蚀。
目前,Veo 3 已面向美国地区的 Ultra 订阅用户开放
(4)Flow
Veo 3 和 Imagen 4 都将用于支持 Flow—— 谷歌面向电影制作的AI视频工具。(不是字节的Flow部门)
Flow:整合了所有谷歌模型的视频创作工具
借助全新图像模型Imagen 4(支持2K输出、文字拼写准确、风格可选)和AI创意平台Flow(用于脚本创作、镜头生成和角色管理),谷歌已经打造出完整的AI影视创作链条。创作者只需对Gemini说一句 “我要拍一部关于森林里动物开会的动画片”,剩下的它都能帮你搞定,从灵感到成片,一气呵成。 Flow 将叙事编织成精美的视频。Flow 现在向美国 Google AI Pro 和 Ultra 用户开放
(5)AI搜索
搜索是谷歌的老本行,这次I/O大会上,搜索不再是关键词匹配工具,而是彻底重构了的“AI助理”,搜索彻底变天。
谷歌推出全新的AI模式(AI Mode),这是比去年的AI Overview更进一步的功能进化。
Deep Research升级,允许用户上传自己的私人 PDF 和图像对搜索功能彻底重构,拥有更先进的推理能力,提出更长、更复杂的查询。AI模式不仅支持自然语言对话式搜索,还具备多模态识别能力、深度搜索能力以及主动理解上下文的能力。
深度搜索(Deep Search):从几十个扩展查询提升至上百个,生成更完整、引用更全面的搜索结果。多模态能力:通过摄像头识别场景,实时询问问题(类似谷歌Lens)。AI 购物助手:上传照片后即可预览穿搭、比价、查找灵感。任务代理功能:可自动搜索餐厅预订、票务等最佳选项,由用户手动确认完成。原理:依赖Gemini模型,将复杂问题拆解为多个子查询,背后执行数百次搜索,再综合成一个结构化结果。
搜索从信息聚合进化到知识重建。
AI 总览功能已扩展至全球 200+ 国家与地区,支持 40+ 语言(含中文、阿拉伯语、马来语、乌尔都语等)。
AI 搜索模式(AI Mode)将全面开放美国用户使用,无需 Labs 注册。
(6)编程助手
作为I/O的传统项目,开发者工具也迎来了一轮“AI洗礼”:编程助手Jules和Code Assist登场
Jules:谷歌推出的编程智能体,可异步执行开发任务,如自动重构代码、编写测试、升级依赖项等。
将代码库克隆到安全的Google Cloud实例中,全程私有、无训练,懂你也尊重你。
Gemini Code Assist:全面升级,支持200万token的上下文,可用于代码审核、长文件解析、多人协作等复杂场景,还集成了个性化建议和团队代码规范工具。
此外还有用于UI开发的Stitch工具,用自然语言生成界面和前端代码,Figma、HTML一键导出。
谷歌希望借助这些工具,让开发者从“写代码”转向“指导AI写代码”,真正解放双手,把人类留给更有创意的部分。
Vibe Coding走进现实,革了初级码农的命,微软裁掉6000码农。
(7)Android XR 智能眼镜首次亮相
谷歌正式推出XR平台——Android XR,并带来两款由Gemini驱动的新硬件原型:Project Moohan 和 Project Aura。
Project Moohan:与三星联合开发的XR头显,主打沉浸式体验,对标Vision Pro
Project Aura:与XREAL合作的轻量AR智能眼镜,主打日常佩戴体验,具备相机、麦克风、扬声器,集成Gemini实时感知与语音助手。
谷歌正在将 Android XR 从 VR 头显拓展到日常可穿戴智能眼镜上。这些眼镜配有摄像头、麦克风和扬声器,并集成 Gemini,可用于:
实时导航(类似车载 HUD)实时消息查看与回复翻译对话语音拍照谷歌还与 Gentle Monster 和 Warby Parker 等潮流眼镜品牌合作,打造更时尚的智能眼镜。预计今年晚些时候正式上市。
谷歌强调,这些硬件不只是“显示设备”,而是Gemini最理想的运行载体。配合Gemini Live的摄像头共享和主动提醒能力,眼镜将成为一种真正意义上的“现实世界助手”。
Project Astra 源自谷歌 DeepMind,旨在展示近乎实时的多模态人工智能能力。谷歌表示,目前正与三星和 Warby Parker 等合作伙伴开发 Project Astra 眼镜,但尚未确定发布日期。
比如在演示中,佩戴者正在组装一辆自行车,眼镜中的Gemini能自动识别零件并引导组装步骤;如果你暂停了,它还能“记住”你停在哪,并在继续时从中断处接续。
整个体验,已经相当接近科幻片里的“J.A.R.V.I.S”。
(8)谷歌生态升级
谷歌把 AI 塞进自己产品的每一个缝隙
已有生态的其他升级
Chrome浏览器 现在内置了 Gemini ,点击图标直接进行文字和语音对话,这下其他AI浏览器难受了Google Meet 支持近乎实时的语音翻译功能Stitch 通过AI生成UI设计稿,支持导出到FigmaNotebookLM 发布视频概览,从包括 PDF、照片等创建视频摘要Google 支持 Labs 体验虚拟试衣其他
Gmail 接入 AI 工具,意料之外Project Starline 更名为谷歌Beam谷歌Beam 可将普通 2D 视频转化为类 3D 的真实对话体验,目标是提升远程沟通的情感交流与信任感。
Beam(前称 Starline)结合了软件和硬件(包括六摄像头阵列和定制光场显示器),使用户能够与他人交谈,仿佛对方就在同一间会议室里。AI模型将来自不同角度对准用户的摄像头视频转换为 3D 渲染图像。
谷歌 Beam 具备 “近乎完美” 的毫米级头部跟踪和 60 帧 / 秒的视频流。与 Google Meet 配合使用时,Beam 提供人工智能驱动的实时语音翻译功能,保留原说话者的声音、语气和表情。
Gmail 智能回复升级:Gmail 引入更个性化的 AI 驱动智能回复功能,提高了邮件处理的效率。Google Meet 实时翻译:Google Meet 现在支持实时 AI 翻译功能,促进了跨语言的交流与协作。Stitch UI 设计工具:推出了 Stitch,一个由 AI 驱动的用户界面设计工具,简化了 UI 设计流程。(9)谷歌AI Ultra
这么多,这么好,哪里可以买到?
谷歌AI Ultra:订阅制 AI 服务全面升级
Gemini Ultra(目前仅限美国地区)提供对谷歌AI应用和服务的 “最高级别访问”,订阅费用为每月 249.99 美元(大概1800RMB),"一条龙"服务包括 Veo 3 视频生成器、新推出的 Flow 视频编辑应用,以及尚未上线的 Gemini 2.5 Pro Deep Think 模式。
两档 订阅计划:AI Pro 和 AI Ultra。
Pro:包含 Gemini App(含高级模式)、Flow、NotebookLM 等所有AI产品,权限高于免费用户。Ultra:月费 250 美元(新用户前三个月半价),提供最强权限、抢先试用 Veo 3、Project Mariner、Gemini 2.5 Deep Think 等实验产品。还包括 Agent 模式,可在桌面环境下实时进行网页浏览、调研、处理任务等,AI 全程协助完成。Google AI Ultra 价格高,目前市面上最贵,但能一站式订阅所有谷歌 AI 服务,比Open AI Pro 值多了。
具体
Gemni:提供 Deep Research 领域的最高使用限额,优先获得突破性的 Veo 3 模型使用权。Flow:Google AI Ultra 订阅方案将 Flow 的性能上限提升至 1080p 视频生成、高级摄像机控制及优先体验 Veo 3。Whisk: Google AI Ultra可获得 Whisk Animate 的最高使用权限,该功能通过 Veo 2 将图像转化为八秒视频NotebookLM:能获得最高使用限制和增强的模型功能。Chrome 中的 Gemini:从明天开始,直接在 Chrome 浏览器中抢先体验 Gemini。该功能利用当前页面的上下文。Project Mariner:这款智能研究原型可通过单一仪表板同时管理多达 10 项任务——从研究到预订和采购。YouTube Premium:个人版 YouTube Premium 套餐可无广告观看 YouTube 视频、离线收听 YouTube Music30 TB 存储空间:在 Google Photos、Drive 和 Gmail 中提供海量存储容量谷歌“All in AI”,不是说说而已,正在为科幻场景里的“世界模型”铺路。
AI 视频生成器 Veo 具备物理理解能力Gemini Robotics 机器人在不同环境中自主行动、操作与适应。谷歌还推出了 Project Mariner,基于浏览器的代理型 AI,可同时处理多达 10 个任务,包括订机票、搜索信息、购物等。谷歌正借助 Gemini 2.5 Pro 打造一个能理解上下文、跨设备运行、且能主动执行任务的“智能 AI 助理”。Gemini Live 与 Project Astra 提前窥探这个未来。
Google I/O 2025展示的不只是功能,而是一种范式:下一代AI产品,不再只是聊天机器人,而是渗透进每次搜索、每个窗口、每个摄像头,成为用户的数字延伸。
附录
Google官方:https://io.google/Google I/O 2025:谷歌杀疯了,把 AI 塞进了每一个缝隙来源:鹤啸九天blog