一文读懂Google I/O 2025 开发者大会:开启 “模型即平台” 的 AI 生态新时代

360影视 欧美动漫 2025-05-21 23:18 2

摘要:继微软之后,谷歌也全面拥抱人工智能(AI)智能体(Agent)。在开发者大会上,谷歌宣布要让智能体全面进驻谷歌的主打业务搜索以及AI助手Gemini,并通过Gemini与搜索结合,推出全新的AI模式搜索。

继微软之后,谷歌也全面拥抱人工智能(AI)智能体(Agent)。在开发者大会上,谷歌宣布要让智能体全面进驻谷歌的主打业务搜索以及AI助手Gemini,并通过Gemini与搜索结合,推出全新的AI模式搜索。

美东时间5月20日周二,谷歌2025年度I/O开发者大会的主题演讲展示了在AI、多模态模型、跨设备整合与开发者工具方面的最新成果。从升级后的 Gemini 2.5 Pro 模型到智能眼镜的 XR 应用,再到 AI 驱动的搜索与网页浏览体验。谷歌展现的不仅是模型的性能提升,更是AI从“信息工具”进化为“通用智能体” 的进步。

Google I/O 2025 展示了 Gemini 2.5 作为跨平台 AI 引擎的全面实力。从“Stitch”到“Casey”,从语音助手到机器人生成,从 Android 到 Web 到 Cloud,每一项更新都紧扣“降低门槛、加速创造”的核心目标。核心发布包括,Gemini 2.5 与 Flash 模型、AI Studio 全新开发体验 、Android 与 Gemini Nano 深度整合 、 多模态工具 Stitches和实时部署能力。

本次发布内容主要包括:

1. Gemini 2.5 与 Flash 模型的集成演示

Gemini 2.5 Flash 是速度极快、价格友好的 AI 模型,适合原型开发。

新实验项目 Stitch:通过文本提示自动生成 App UI 设计,并即时转为代码。

设计不仅是静态图,而是可以编辑的真实界面;可导出至 Figma 或 IDE 中继续开发。

2. AI Studio 的重大更新

AI Studio 新增原生语音模型,支持 24 种语言与主动音频识别。

URL Context 功能:模型可从链接中提取上下文,支持最多 20 个链接。

增强了函数调用与搜索推理功能,可与外部工具协同工作。

展示了如何构建语音助手、游戏等项目,包括自动生成、调试和部署。

3. Keynote Companion(虚拟主持助手)

用 Gemini 构建的虚拟形象 “Casey”,可监听关键词如“Gemini”并实时更新 UI。

与地图整合:通过语音指令让 Casey 展示地点、寻找 Wi-Fi 咖啡馆并提供导航。

支持异步函数调用,实现更自然的多轮对话体验。

实时部署:通过 Cloud Run 一键部署应用到线上,并集成至 IDE(如 VS Code)。

4. Android 平台的 AI 与 UI 创新

推出 Androidify 应用:通过自拍图像 + Gemini 模型描述人物特征,再生成可爱 Android 机器人形象。

使用 Gemini 的多模态能力(文本 + 图像)+ Imagine 3 模型实现图像生成。

云端处理适合高性能任务,设备端使用 Gemini Nano 提供 summarize、rewrite 等轻量功能。

新 UI 系统 Material 3 Expressive:增强界面趣味性,例如“饼干”形状按钮。

Android 16 引入“live updates”、性能优化工具 R8 与 baseline profiles、大屏设备支持(如平板、Chromebook)。

刚开场,登台的Alphabet兼谷歌CEO 皮查伊(Sundar Pichai)就强调了Gemini的重要性,称“在谷歌,每天都是Gemini季”,并力推新模型Gemini 2.5 Pro ——“ 迄今为止我们最强大的通用 AI 模型”。

皮查伊说,自上次I/O大会以来,谷歌已推出十多款模型和20项AI功能,谷歌的发货速度已经是史上最快:

“我们希望尽快将最好的模型和产品交到大家手中,因此我们的发货速度比以往任何时候都快。”

皮查伊透露,Gemini 2.5 Pro模型已在大语言模型(LLM)测评LLM Arena的所有类别排行榜上名列前茅。Gemini是热门AI代码编辑器Cursor上增长最快的模型。

他介绍,一年来,谷歌系统每月处理的token数量激增,从去年的9.7万亿增加到现在的480万亿,增长将近50倍。Gemini的App每月有4 亿多活跃用户。

皮查伊宣布,谷歌将在Chrome浏览器、搜索以及Gemini的App中推出智能体模式(Agent Mode)。

智能体可以与浏览器和其他软件进行交互和操作。谷歌研究的AI智能体Mariner现在可以同时管理多达10个任务,用户只需向其展示一次任务,它就会学习该任务,并将经验用于未来的案例。

智能体模式的实验版即将向Gemini App的订阅者推出。

皮查伊现场演示Gemini App中的智能体模式,要求它帮用户找公寓。得到指令后,Gemini搜索房产网Zillow,用电脑调整筛选条件,并使用模型上下文协议MCP预约看房。

皮查伊评价:

“这是一个新兴的时代。将研究成果转化为现实的最佳方式就是让它真正发挥作用。”

他说,在经用户许可的情况下,Gemini 现在可以在各种App中以“私密安全”的方式使用个人信息。

Gemini Live语音助手升级 Gemini 2.5 Pro 和 Flash有原生音频输出

谷歌高管称,Gemini App有三大定位:Personal(个性化)、Proactive(主动)、Powerful(强大)。它可主动帮助你准备考试、整理任务、制定旅行计划,甚至提前生成解释视频。

Gemini Live语音助手升级,即日起在Android 和 iOS免费开放,支持 45种以上的语言。它支持语音对话、摄像头识别与屏幕共享,能在上下班途中与用户自然聊天或帮你读懂周围环境。谷歌称,Gemini Live的“这些交互是如此自然,以至于你会忘了你在跟 AI 说话。”

在智能体模式下,Gemini Live可帮用户找房、预约、订票。谷歌演示,用户只需说出需求:“我和两个室友在奥斯汀找房,每人预算 1200 美元”,Gemini 会自动比对 Zillow 房源、筛选洗衣设施、甚至安排看房时间。完全不需要切换 App,AI 就已为你搞定。

Canvas功能让文档“变身”成可分享的内容。用户可以上传文档,一键生成互动网页、信息图,甚至播客内容。“Canvas 不是工具,它是共创空间。”

谷歌Gemini模型的产品策略负责人Tulsee Doshi介绍,Gemini 2.5 Pro 和 Flash现在都有原生音频输出,支持两种声音。

模型现在可以用更具表现力的方式交谈,甚至可以低声细语。它可以无缝切换到印地语,然后以相同的声音切换回英语。Gemini API现在就可以提供原生音频输出。

Gemini的实时语音助手Gemini Live现在可以区分说话者的声音和背景音,因此可以做出更恰当的响应。

谷歌发布名为Google Beam 的新产品。它是一个AI驱动的视频通信平台,让人们的视频感觉如同面对面聊天。它是谷歌3D视频会议系统项目Starline 技术的升级版。谷歌与惠普合作,将Google Beam 系统商业化,今年晚些时候,惠普将推出首批Google Beam设备。

Google Beam 采用六个摄像头阵列,从不同角度捕捉拍摄对象、比如人物。AI视频模型将实时拼接这些视图,渲染成类似 3D 的画面,从而创建3D 人物。谷歌表示,该系统拥有近乎完美的头部追踪技术,精度可达毫米级,以视频帧率每秒60 帧(fps)的实时渲染速度呈现。

Gemini 2.5 Pro实时翻译 Google Meet实时语音翻译周二上线

谷歌高层介绍,Gemini 2.5 Pro 很快就能实现实时翻译。Gemini模型产品团队负责人Tulsee Doshi现场进行了实时翻译的演示,让AI语音先用英语说话,在说到一半时切换到印地语。

Doshi 还表示,Gemini 2.5 Pro 更加安全,具有针对提示注入这种网络共计的保护措施。提示注入是指,利用恶意或非预期提示词诱骗 AI执行不应执行的操作。

谷歌的在线视频会议服务Google Meet本周二推出实时语音翻译功能,目前支持英语到西班牙语的互译,更多语言将在未来几周内推出。该服务功能首先面向订阅用户,今年晚些时候扩大到企业用户。

更快更轻便Gemini 2.5 Flash 6月初面世 Gemin 2.5 Deep Think有限开放

Gemini 2.5 Flash是一个高效轻量版本的模型,速度比 Pro 快、成本更低,适合常规任务。它支持 “思考预算”(Thinking Budget)机制,让用户可以控制输出质量与响应速度。

谷歌介绍,谷歌的推理模型Gemini 2.5 Flash效率更高。在实现相同性能的情况下,它使用的token更少,这样一来,效率就提升了22%。如果用户使用 Gemini 2.5 Flash 进行构建,使用的token会更少的。

谷歌DeepMind的CEO Demis Hassabis表示,Gemini 2.5 Pro将覆盖教育。Gemini 2.5 Pro在推理方面具有深度思考能力。新推出的AI模型Gemini 2.5 Flash 将于6月投面世。

Gemini 2.5 Deep Think 是 DeepMind 推出的全新 AI 研究模型。Hassabis表示,该模型在多项基准测试中均处于领先地位,初期仅向受信任的测试人员开放。

谷歌编码智能体Jules开启公测 Gemini Diffusion用于实验性研究

Gemini 现在包括模型“原始想法”的“思想摘要”(thought summaries)。Gemini 2.5 Pro 现在有“思考预算”,它存在于 Flash模型中,可以供开发人员控制模型使用多少个token来控制成本和延迟。

上周OpenAI推出了自家的最强写代码智能体Codex,本周二谷歌介绍了自研的编码智能体App Jules。异步编码代理 Jules 现已开启公测,任何人都可以注册。

Gemini 2.5 Pro 可以将用户绘制的草图和 3D 动画编码到现有的App中,同时更新文件以便使用 AI Studio 生成动画。

谷歌即将推出一种新的研究模型Gemini Diffusion。这个新模型在回答问题时更加高效、快速。该模型正在面向一小部分人测试。它是谷歌首次将扩散模型用于文本生成的实验性研究,速度提升 5 倍,可编辑生成文本、代码与数学逻辑。

谷歌演示了一段概念视频,展示多模态虚拟助手项目Astra加持的Gemini Live功能。它可以帮助用户进行研究,比如弄清楚如何修理自行车。

Gemini 会进行研究并提供指导,首先找到 PDF 说明书,然后找到 YouTube 视频,最后搜索自行车店的邮件。用户可以根据需要给自行车店打电话订购零件,并查看使用手册。这基本上就是一个多任务处理的过程。

谷歌还演示了一个名为Aira的项目。它通过智能眼镜为盲人和视力低的用户提供实时视觉描述服务。

视频显示,当用户准备在俱乐部现场演奏音乐时,用户用手机的摄像头环顾房间,通过在手机上运行的Aira服务,手机可以实时描述房间内的事物。

DeepMind的CEO Hassabis说:“我们正在打造更加个性化、更有主动性和更强大的AI。” 所有这一切将迎来“一个充满发现和奇迹的新黄金时代”。

皮查伊称AI概览(AI Overviews)是谷歌最成功的产品之一,每月有15 亿用户在搜索中使用AI概览,它推动某些类型的查询增长了10%。这意味着,谷歌提供生成式AI服务的用户规模超过其他公司。

Gemini模型将与谷歌搜索集合。它将通过AI模式(AI Mode)增强智能,成为一种强大的新型AI搜索功能,可帮助解答问题。它是搜索中的新标签页,也将包含在AI 概览中。

作为全新的搜索功能,AI模式让用户可以提出更长、更复杂的查询。它支持长达数百字的提问、自动分解查询意图、并生成结构化答案。该模式本周二就上线,作为搜索的新标签页形势,向所有美国的用户推出。

新版本中,用户可以:

1) 直接通过自然语言发问,系统会提供摘要式、结构化回答。

2) 与搜索结果进行多轮对话,进一步深入了解相关内容。

3) 获取图文并茂的“智能回答卡片”,例如自动整理出旅游行程、购物建议、编程指南等。

皮查伊称:

“我们正在重新定义搜索的未来。不是找到链接,而是直接给出答案。”

谷歌搜索负责人Liz Reid介绍,AI模式会得到名为Deep Research的模型加持,谷歌称之为“深度搜索”(DeepSearch)。该模型将通过逻辑搜索结果和高度相关的内容,更好地整理研究主题。

AI模式的搜索“就像你身边有一位博学助理。” 它还会结合地图、评论、视频等生成图表和推荐内容。

Reid说,AI 模式将拥有谷歌所有最优秀的 AI 特性和功能。“随着时间的推移,我们将逐步将 AI 模式的许多尖端特性和功能融入核心搜索体验。” 她还说,AI 模式现在就将支持AI概览。

谷歌推出新一代图像模型Imagine 4 ,让图像质量大幅提升,更强细节捕捉、构图理解,首次支持精确文本生成。

该模型加入“快速变体”:比前代快10倍,适合创意探索。新版本的Imagine模型更强细节捕捉与构图理解,可识别中文、英文等复杂字体,实时生成图像、海报甚至插画。

谷歌介绍Veo 3 视频模型。它是谷歌最强视频生成模型,支持角色一致性、镜头控制和原生语音生成,能自动合成环境音、对白、背景音乐。甚至连角色间的对话语音都能生成,画面还能和角色的口型同步。

Veo 3可控制摄像机角度、剪辑节奏,确保人物一致性、风格统一。

谷歌与导演合作开发了名为Flow的创作平台,支持一键式场景、故事生成。

Flow 平台支持AI 视频制作软件,支持剧本、镜头语言、画面构图等创作全过程。谷歌与 Darren Aronofsky、Eliza McNitt 等电影人合作推出短片项目。

用户可上传角色、设定场景,AI 自动生成镜头组接。

谷歌还推出了Lyria 音频模型和Music AI Sandbox。它支持生成专业音乐、合唱、独唱,结合 AI Sandbox 成为音乐人创作工具,能结合 Flow、Veo 可用于完整电影原声音乐生成。

谷歌展示了在扩展现实——XR生态的重要进展,其中之一是智能眼镜。它是全天候的Gemini 助理

谷歌的智能眼镜内建摄像头、骨传导音响与内嵌显示,眼镜可识别物体、翻译语言、记住你喝的咖啡名字,还能用语音控制 AI 导航、订位、拍照。

Gentle Monster 和 Warby Parker 将成为首批打造 Android XR 眼镜的眼镜合作伙伴。

同时,谷歌的Android XR 平台与三星联合推出头显Moohan。

该头显支持沉浸式地图、视频播放、交互式 Gemini AI 等。XR 版本地图可瞬间“带你”走遍世界。

谷歌称,Moohan“不再是Clark Kent摘眼镜变超人,而是戴上眼镜,你就拥有 AI 超能力。”

套餐Google AI Ultra月费近245美元 含多种Gemini模型、30 TB存储空间等

谷歌推出全新的 AI 订阅套餐Google AI Ultra,订阅者将拥有最高使用限额,并可访问谷歌最强大的模型和高级功能。

Google AI Ultra 现已在美国上市,每月价格为 249.99 美元(首次用户可享受订阅前三个月的半价优惠。谷歌称,将很快在更多国家地区推出。

这一套餐包括:

使用Gemini模型,计划提供 Deep Research 的最高使用限额、Veo 2 的尖端视频生成功能以及Veo 3 模型的抢先体验,未来几周还将获得增强推理模式 Deep Think 2.5 Pro 版的使用权限;

Whisk,获得 Whisk Animate 的最高使用限制,它能通过 Veo 2 将您的图像转换成生动的八秒视频;

NotebookLM让学习者可以用“思维导图”方式组织资料,今年晚些时候订阅用户可获得最高使用限制和增强的模型功能;

融入Gemini的Gmail、Docs、Vids 等应用,从周三起,就可在Chrome 浏览器中直接访问 Gemini;

YouTube Premium,无广告、离线和后台观看 YouTube 和收听 YouTube 音乐;

30 TB 存储空间:为 Google 相册、云端硬盘和 Gmail 提供海量存储容量;

还包括Flow平台和Mariner项目的服务。


来源:华尔街见闻

相关推荐