2025谷歌I/O大会:大模型应用全面开花

360影视 欧美动漫 2025-05-22 11:39 2

摘要:谷歌业务早已扩展至 Android、Chrome、搜索和 Workspace 以外 —— AI 是下一个主战场。从去年的 I/O 至今,公司已在 AI 领域推出多个重大进展。


内容简介

Google全家桶大升级

谷歌业务早已扩展至 Android、Chrome、搜索和 Workspace 以外 —— AI 是下一个主战场。从去年的 I/O 至今,公司已在 AI 领域推出多个重大进展。

【2025-5-21】一年一度的谷歌开发者大会(简称Google I/O),周二和周三在山景城海岸线圆形剧场开幕,一次性亮相N多产品功能,全家桶级

别的“攻击”:新模型、新功能、新硬件、新平台,几乎把整个科技生态拎出来洗了一遍。

从搜索升级到全知全能的AI助理、从图文视频生成到主打空间计算的XR眼镜、从编程工具到工作流自动化。

别说用户,现在哪怕是只猫,Google都能试着用AI服务。

内容很多,概括如下:

(1)Gemini 2.5 更快、更聪明、理论能力更强,Gemini 2.5 Pro Deep Think 模式
(2)内容生成工具:Veo、Imagen 和 Flow,下一代创作利器

Veo 3:支持音频提示生成,如城市街道噪音、公园鸟鸣、角色对话等,增强视频真实感。Flow:AI 电影制作工具,可自定义视频镜头、动作、演员和场景等。Imagen 4:图像细节更清晰,表现力更强,支持多种画幅和最高 2K 分辨率。

(3)谷歌搜索全新 AI 模式

(4)Android XR:多模态 AI 助手,能够通过摄像头进行实时交互

(5)谷歌生态远景:将科幻场景的“世界模型”变成现实

详情:

(1)Gemini全家桶

Gemini 2.5 更快、更聪明、理论能力更强

Gemni全家桶

此次带来三个新版本:

① Gemini 2.5 Pro Deep Think:强化推理能力,专为数学、编程等高复杂度任务设计。在美国数学奥林匹克(USAMO)上拿下40.4%高分,表现超过GPT-4 Turbo。② Gemini 2.5 Flash:强调效率和成本,保持多模态理解的同时,toen使用减少30%,更适合高频日常调用。③ Gemini Diffusion:全新的扩散式文本生成模型,文本生成速度比以往快5倍,每秒可生成超过10,000 token,特别适合编辑和快速创作。

Gemini 2.5 Pro 加入 “深度思考”(Deep Think) 功能,可进行多假设推理高阶研究性思考。

Deep Think是新型增强推理模式,会探索多种假设,更有效地处理极其复杂的数学和编程问题。

2025 年美国数学奥林匹克竞赛(USAMO)和LiveCodeBench(竞赛级编程的高难度基准测试)测试都领先对手(OpenAI o3和o4-mini)

Deep Think工作原理没有说,猜测类似于 OpenAI o1-pro 和即将推出的 o3-pro 模型,可能使用引擎搜索并综合给定问题的最佳解决方案。

Deep Think 已通过 Gemini API 向 “可信测试人员” 开放,普通人还得等等。

Gemini 2.5 Flash 在推理、多模态、编码和响应效率等方面显著提升,所需 token 减少 20% - 30%。

Gemini diffusion 是使用扩散模型的LLM, 编码方面表现尤为出色。模型能以每秒 2000 个 token 的速度生成代码

谷歌还引入了原生音频生成功能,让模型说话时能保留语调、情绪甚至口音细节。你讲四川话,它也能跟上;你低声私语,它不会高声回应。

Gemini 2.5 现支持音视频输入,并在 Live API 预览版中提供原生语音输出,开发者可调整语音对话语气、口音和风格。

谷歌Gemini每月处理的 token 已经从去年的10 万亿飙升到480 万亿,翻了整整 50 倍。超 700 万名开发者正在用 Gemini 搭建 AI 应用,是去年的 5 倍,Vertex AI 上的使用量也增长了 40 倍。

Gemini 应用坐拥4 亿月活用户,其中使用 2.5 Pro 模型的用户活跃度上涨了 45%。

这次对Gemini APP 也进行了更新

iOS 和 Android 用户都可以使用 Gemini Live 读取相机和屏幕功能Canvas 和 Deep Research都进行了很多能力迭代Agent 模式即将推出

(2)Imagen 4 图像模型发布

Imagen 4 生成速度比 Imagen 3 更快。而且,谷歌还会发布快 10 倍的 Imagen 4 变体。

Imagen 4 特点:

渲染织物、水滴和动物皮毛等 “精细细节”,处理写实和抽象风格,生成各种纵横比、最高 2K 分辨率的图像。支持多种宽高比及高达 2K 分辨率的图像生成,尤其适合印刷或演示场景。拼写和排版能力也显著提升,轻松创作贺卡、海报乃至漫画作品。

示例:

(3) Veo 3

谷歌推出全新的视频生成模型Veo 3,在图像清晰度、物理模拟和细节控制上都实现了质的飞跃。

理解能力极强:只需在提示中输入一个简短故事,模型就能生成一段将其生动呈现的视频片段。

除了视频质量提升,还能同步生成音效和语音,更离谱的是,默认唇形同步。

Veo 3 直接生成真人播客对话视频,还能指定主题

这次要把视频编排 Agent 干掉了,Agent部分能力会被基座LLM侵蚀。

目前,Veo 3 已面向美国地区的 Ultra 订阅用户开放

(4)Flow

Veo 3 和 Imagen 4 都将用于支持 Flow—— 谷歌面向电影制作的AI视频工具。(不是字节的Flow部门)

Flow:整合了所有谷歌模型的视频创作工具

借助全新图像模型Imagen 4(支持2K输出、文字拼写准确、风格可选)和AI创意平台Flow(用于脚本创作、镜头生成和角色管理),谷歌已经打造出完整的AI影视创作链条。创作者只需对Gemini说一句 “我要拍一部关于森林里动物开会的动画片”,剩下的它都能帮你搞定,从灵感到成片,一气呵成。 Flow 将叙事编织成精美的视频。

Flow 现在向美国 Google AI Pro 和 Ultra 用户开放

(5)AI搜索

搜索是谷歌的老本行,这次I/O大会上,搜索不再是关键词匹配工具,而是彻底重构了的“AI助理”,搜索彻底变天。

谷歌推出全新的AI模式(AI Mode),这是比去年的AI Overview更进一步的功能进化。

Deep Research升级,允许用户上传自己的私人 PDF 和图像对搜索功能彻底重构,拥有更先进的推理能力,提出更长、更复杂的查询。

AI模式不仅支持自然语言对话式搜索,还具备多模态识别能力、深度搜索能力以及主动理解上下文的能力。

深度搜索(Deep Search):从几十个扩展查询提升至上百个,生成更完整、引用更全面的搜索结果。多模态能力:通过摄像头识别场景,实时询问问题(类似谷歌Lens)。AI 购物助手:上传照片后即可预览穿搭、比价、查找灵感。任务代理功能:可自动搜索餐厅预订、票务等最佳选项,由用户手动确认完成。

原理:依赖Gemini模型,将复杂问题拆解为多个子查询,背后执行数百次搜索,再综合成一个结构化结果。

搜索从信息聚合进化到知识重建

AI 总览功能已扩展至全球 200+ 国家与地区,支持 40+ 语言(含中文、阿拉伯语、马来语、乌尔都语等)。

AI 搜索模式(AI Mode)将全面开放美国用户使用,无需 Labs 注册。

(6)编程助手

作为I/O的传统项目,开发者工具也迎来了一轮“AI洗礼”:编程助手Jules和Code Assist登场

Jules:谷歌推出的编程智能体,可异步执行开发任务,如自动重构代码、编写测试、升级依赖项等。

将代码库克隆到安全的Google Cloud实例中,全程私有、无训练,懂你也尊重你。

Gemini Code Assist:全面升级,支持200万token的上下文,可用于代码审核、长文件解析、多人协作等复杂场景,还集成了个性化建议和团队代码规范工具。

此外还有用于UI开发的Stitch工具,用自然语言生成界面和前端代码,Figma、HTML一键导出。

谷歌希望借助这些工具,让开发者从“写代码”转向“指导AI写代码”,真正解放双手,把人类留给更有创意的部分。

Vibe Coding走进现实,革了初级码农的命,微软裁掉6000码农。

(7)Android XR 智能眼镜首次亮相

谷歌正式推出XR平台——Android XR,并带来两款由Gemini驱动的新硬件原型:Project Moohan 和 Project Aura。

Project Moohan:与三星联合开发的XR头显,主打沉浸式体验,对标Vision Pro

Project Aura:与XREAL合作的轻量AR智能眼镜,主打日常佩戴体验,具备相机、麦克风、扬声器,集成Gemini实时感知与语音助手。

谷歌正在将 Android XR 从 VR 头显拓展到日常可穿戴智能眼镜上。这些眼镜配有摄像头、麦克风和扬声器,并集成 Gemini,可用于:

实时导航(类似车载 HUD)实时消息查看与回复翻译对话语音拍照

谷歌还与 Gentle Monster 和 Warby Parker 等潮流眼镜品牌合作,打造更时尚的智能眼镜。预计今年晚些时候正式上市。

谷歌强调,这些硬件不只是“显示设备”,而是Gemini最理想的运行载体。配合Gemini Live的摄像头共享和主动提醒能力,眼镜将成为一种真正意义上的“现实世界助手”。

Project Astra 源自谷歌 DeepMind,旨在展示近乎实时的多模态人工智能能力。谷歌表示,目前正与三星和 Warby Parker 等合作伙伴开发 Project Astra 眼镜,但尚未确定发布日期。

比如在演示中,佩戴者正在组装一辆自行车,眼镜中的Gemini能自动识别零件并引导组装步骤;如果你暂停了,它还能“记住”你停在哪,并在继续时从中断处接续。

整个体验,已经相当接近科幻片里的“J.A.R.V.I.S”。

(8)谷歌生态升级

谷歌把 AI 塞进自己产品的每一个缝隙

已有生态的其他升级

Chrome浏览器 现在内置了 Gemini ,点击图标直接进行文字和语音对话,这下其他AI浏览器难受了Google Meet 支持近乎实时的语音翻译功能Stitch 通过AI生成UI设计稿,支持导出到FigmaNotebookLM 发布视频概览,从包括 PDF、照片等创建视频摘要Google 支持 Labs 体验虚拟试衣

其他

Gmail 接入 AI 工具,意料之外Project Starline 更名为谷歌Beam

谷歌Beam 可将普通 2D 视频转化为类 3D 的真实对话体验,目标是提升远程沟通的情感交流与信任感。

Beam(前称 Starline)结合了软件和硬件(包括六摄像头阵列和定制光场显示器),使用户能够与他人交谈,仿佛对方就在同一间会议室里。AI模型将来自不同角度对准用户的摄像头视频转换为 3D 渲染图像。

谷歌 Beam 具备 “近乎完美” 的毫米级头部跟踪和 60 帧 / 秒的视频流。与 Google Meet 配合使用时,Beam 提供人工智能驱动的实时语音翻译功能,保留原说话者的声音、语气和表情。

Gmail 智能回复升级:Gmail 引入更个性化的 AI 驱动智能回复功能,提高了邮件处理的效率。Google Meet 实时翻译:Google Meet 现在支持实时 AI 翻译功能,促进了跨语言的交流与协作。Stitch UI 设计工具:推出了 Stitch,一个由 AI 驱动的用户界面设计工具,简化了 UI 设计流程。

(9)谷歌AI Ultra

这么多,这么好,哪里可以买到?

谷歌AI Ultra:订阅制 AI 服务全面升级

Gemini Ultra(目前仅限美国地区)提供对谷歌AI应用和服务的 “最高级别访问”,订阅费用为每月 249.99 美元(大概1800RMB),"一条龙"服务包括 Veo 3 视频生成器、新推出的 Flow 视频编辑应用,以及尚未上线的 Gemini 2.5 Pro Deep Think 模式。

两档 订阅计划:AI Pro 和 AI Ultra。

Pro:包含 Gemini App(含高级模式)、Flow、NotebookLM 等所有AI产品,权限高于免费用户。Ultra:月费 250 美元(新用户前三个月半价),提供最强权限、抢先试用 Veo 3、Project Mariner、Gemini 2.5 Deep Think 等实验产品。还包括 Agent 模式,可在桌面环境下实时进行网页浏览、调研、处理任务等,AI 全程协助完成。

Google AI Ultra 价格高,目前市面上最贵,但能一站式订阅所有谷歌 AI 服务,比Open AI Pro 值多了。

具体

Gemni:提供 Deep Research 领域的最高使用限额,优先获得突破性的 Veo 3 模型使用权。Flow:Google AI Ultra 订阅方案将 Flow 的性能上限提升至 1080p 视频生成、高级摄像机控制及优先体验 Veo 3。Whisk: Google AI Ultra可获得 Whisk Animate 的最高使用权限,该功能通过 Veo 2 将图像转化为八秒视频NotebookLM:能获得最高使用限制和增强的模型功能。Chrome 中的 Gemini:从明天开始,直接在 Chrome 浏览器中抢先体验 Gemini。该功能利用当前页面的上下文。Project Mariner:这款智能研究原型可通过单一仪表板同时管理多达 10 项任务——从研究到预订和采购。YouTube Premium:个人版 YouTube Premium 套餐可无广告观看 YouTube 视频、离线收听 YouTube Music30 TB 存储空间:在 Google Photos、Drive 和 Gmail 中提供海量存储容量

谷歌“All in AI”,不是说说而已,正在为科幻场景里的“世界模型”铺路。

AI 视频生成器 Veo 具备物理理解能力Gemini Robotics 机器人在不同环境中自主行动、操作与适应。谷歌还推出了 Project Mariner,基于浏览器的代理型 AI,可同时处理多达 10 个任务,包括订机票、搜索信息、购物等。

谷歌正借助 Gemini 2.5 Pro 打造一个能理解上下文、跨设备运行、且能主动执行任务的“智能 AI 助理”。Gemini Live 与 Project Astra 提前窥探这个未来。

Google I/O 2025展示的不只是功能,而是一种范式:下一代AI产品,不再只是聊天机器人,而是渗透进每次搜索、每个窗口、每个摄像头,成为用户的数字延伸。

附录

Google官方:https://io.google/Google I/O 2025:谷歌杀疯了,把 AI 塞进了每一个缝隙

来源:鹤啸九天blog

相关推荐