Google一夜十二次,能否逆袭当回AI界老大

360影视 欧美动漫 2025-04-10 23:14 4

摘要:我选了AI相关重点和效果演示,整理了这份全网最清晰GoogleCloudNext25AI更新解读,方便大家跟上最新进展。

这次发的内容特别多,很多信息散落在大量公告中。

我选了AI相关重点和效果演示,整理了这份全网最清晰GoogleCloudNext25AI更新解读,方便大家跟上最新进展。

先给个总结:

1.Google公布了很多重磅、酷炫的AI模型与工具,但不少好东西都是期货,求谷歌快点放出来

2.Gemini2.5Flash即将发布,高性价比推理。结合此前登顶的2.5Pro,能否逆袭当回AI界老大?

3.特别是,发了让Agent无缝协作的A2A协议,主导全球Agent未来协同规范。

4.全面公开了GoogleAI的601项AI落地案例,对应用层创业者指出明路。

本文整理了5个AI新模型、1个面向未来的AI协议,以及6项其他重点更新。

5个AI模型更新

首先是5个AI模型更新,我绘制了这份看板,方便大家速览:

Gemini2.5Flash:快来了,是推理模型,主打快速、便宜

此前Google已经推出了Gemini2.5Pro推理模型,拥有100Wtokens上下文(实测在超出上下文对话中,依旧能遵循指令,精准回忆早期对话记忆),而且支持多模态提示。在众多Benchmark测试中,取得了最高排名。

确实非常厉害,目前一泽的日常主力模型就是2.5Pro,前几天备受好评的“万能文生图提示框架”中,就使用它获得了最佳的体验效果。

现在Gemini2.5Flash也快来了,与前代2.0Flash不同的是:

这次是个推理模型,但依然延续了快速、便宜好用的优点;

推理程度会根据对话任务复杂度,动态适应(不傻傻地对简单常识问题进行长推理实在是太有必要了);

开发者可以自定义模型的推理程度,便于控制成本;

正式发布还需要时间,再等等,很快在VertexAI中可用。

Veo2:超一流视频生成模型,现已开放waitlist申请

Veo2绝对是值得关注的视频生成模型,现在还支持P视频、关键帧生成视频、扩展画面、镜头控制等特性:

P视频:无需手动修图,移除视频中不需要的元素。注意看,左图是有吊威亚的,右图的绳子就被自然P掉了。

关键帧生成视频:用首尾画面(最左为首图、最右为尾图),生成视频,画面效果非常稳定。

扩展画面:可以对已有视频画面进行自然扩展,虽然效果不算特别高级,但很适合把一些横版视频变成竖版,方便投稿到TikTok等竖屏内容平台。

镜头控制:可以在视频生成时,调整镜头构图、摄像机角度和控制节奏,将摄像机向不同方向移动,创建延时摄影效果,或生成无人机跟随风格的镜头。

PS:GoogleVideoFX用的就是Veo2模型(不得不说Google家的产品入口、关系是真的复杂)。

注:Veo2现已开放waitlist申请,申请地址请在文末获取。

吐槽:GoogleCloud和VertexAI的界面是真难用。如无必要,还是等VideoFX这类toC入口开放了再用吧。

Chirp3:只需10秒语音样本,即可创建逼真的自定义语言

和Veo2一起被更新到VertexAI的还有Chirp3,是Google的音频理解与生成模型。

Chirp3提供了超过35种语言(含中文)的自然逼真的语音,并支持八种音色选项。

亮点一:支持通过10秒的短录音,就能生成非常逼真的自定义语音。

因为Chirp3现在只能通过API调用,所以没能直接上手。暂时不确定用于学习的10秒短录音是必须跟读固定文本,还是随意任何一条清晰的录音也可以。

如果是后者,那就非常有意思,你可以拿游戏、动漫里的角色的任何一段音频,合成对应的虚拟人语音,对于开发者还是阿宅都非常有价值。

当然,也希望Google抓紧做好安全策略,以防自己的语音被别人拿去随意合成。

亮点二:区分音频中的说话人身份,提升音频转文本的易用性。

天下苦音频转写不能区分人声久矣。这下好了,现在能够区分多个说话人录音中“哪句话是谁说的”。这也是这项技术必然的需求趋势。

会议摘要、播客分析、访谈录音转写会方便很多。

Lyria:文本到音乐生成模型,也开放waitlist申请

Lyria也被更新到了VertexAI,可从简单文本提示创建完整音乐作品。

不过没看出来特别的亮点,像海螺音乐的效果也不错。

以下是官方放出的演示音频:

注:Lyria现已开放waitlist申请,申请地址见文末。

Imagen3:图像生成和编辑能力改进,更擅长对象移除和图像修复了

Imagen3已经放出来很久了,《万能文生图提示词框架》就通过ImageFX(Imagen3)生成了很多产品、游戏、家居设计的图像样例。绝对是被低估的、头一档的文生图模型。

一泽万能文生图框架,测试Imagefx效果

Imagen提升了编辑/修复功能效果,能够快速移除、重绘图像中不需要的对象、瑕疵。

下图是官方演示:

左图为原图,中间是旧版本,右图是Imagen3版本。

Imagen3一如既往的稳定,实力真的被大大低估了。

你可以在Gemini应用、ImageFX开始使用它。

1个面向未来的AI协议

Agent2Agent:让Agent们无缝协作的新协议

AI开发者好不容易在WaytoAGI社区、AI博主们的共学努力下,逐渐搞懂MCP是什么。

现在Google又搓出了特殊的协议——Agent2Agent。

如果要看小科普,隔壁那个很快的数字肝帝已经发了,可以去看看:《5000字长文带你看懂,Agent世界里的A2A、MCP协议到底是个啥》。

大意是:

A2A是一种用于Agent与Agent联动协作的开放协议,是对Anthropic模型上下文协议(MCP)的补充;

MCP侧重于为Agent接入各类工具与信息;

A2A更侧重让“你要用的Agent”(客户端Agent)能够与“提供第三方支持的Agent”(远程Agent)进行联动,前者负责制定、传达任务,后者负责执行;

在A2A连接的过程中,Agent之间可以互相发送消息,传达上下文信息、回复等;

A2A协议的连接,可以持续保持很久,直到完成任务。

官方也给了一个演示视频,用来看效果:

类A2A协议在未来AIAgent全面落地的时代,当然非常重要。

但不管怎么样,在类MCP生态还未健全、Workflow到底能不能算Agent都没分清楚的现在,普通人甚至大部分开发者,也都没必要过多关注A2A协议。

Don'tbesoserious.

如果你喜欢研究技术,可移步官方Github仓库:https://github.com/google/A2A

其他AI应用、开发者工具和601个案例

除了前面的模型更新、A2A协议外,谷歌还面向一般用户、开发者更新了一堆应用和开发工具,以及601个真实AI应用案例。

就挑一些重点说,按主观优先级排列:

FirebaseStudio:搭载最强AI的云端AI编程工具,支持一键部署应用

Google也发布了他们自己的AI编程工具,得益于GoogleCloud的云资源,开发者可以用Firebase一站式完成应用开发的全流程。

包括AIcoding、编译构建、云服务部署、运行的一切。

确实很方便,而且不需要下载IDE,在云端就可以完成AI编程。

他们的首页是这样的。

具体的Coding界面长这样,操作体验和其他AI编程应用一致。

得益于最强Gemini2.5Pro的加持,你能体验到这个星球上现在一流的Coding体验。

可以前往https://idx.google.com/体验。

ADK:Google的新Agent开发框架

ADK,全称AgentDevelopmentKit。也是Google新发布的开发框架,适用于构建Multi-Agent系统的开发。

以下是官方介绍的优势:

开发者可以自行前往https://google.github.io/adk-docs查看具体项目

GoogleWorkspace:集成大量AI服务

Google给Workspace套件追加了大量的AI能力。

为Docs、Sheets、Meet、Chat等日常工具带来更多AI功能:

可以把Google文档变成音频版本,或者用播客风格概括文档亮点;

Google文档新增“帮我改进”功能;

Vids可用Veo2视频生成模型;

Sheets支持用AI自动分析数据,并生成洞察。

对了,普通用户在GoogleDoc中无法体验。

GoogleAIStudio整体UI优化

Google这次还是没选择优化他们的GoogleCloud控制台设计,而是选择了继续优化AIStudio。

整体设计风格向GeminiWeb应用靠拢,变清晰了不少。

这算个小添头,还不错,用起来会更顺手。

Google的601个真实客户带来的AI案例

Google更新了过去一年他们推动的AI客户案例。

在去年GoogleCloudNext24时,这个案例列表还只有101个,现在已经多了500个。狠狠秀了一把肌肉。

用Gemini总结这601个应用场景,涉及的应用场景如下:

客户代理:提升客户服务(如聊天机器人、个性化推荐、订单处理);

员工代理:提高员工效率(如自动化任务、信息检索、内容生成、协作);

创意代理:加速创意内容生成(如广告、图像、视频、文案);

代码代理:辅助软件开发(如代码生成、调试、代码库理解);

数据代理:强化数据分析和洞察(如模式识别、预测、供应链优化、数字孪生);

安全代理:增强安全防护(如威胁检测、欺诈预防、合规性)。

相信对很多AI公司(尤其ToB)会有不少解决方案上的启发。

详细案例集在此:https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders

IronwoodTPU:Google第7代AI芯片,专为推理而生

Google即将推出他们的第7代AI芯片“Ironwood”,是他们迄今为止性能最高、可扩展性最强的定制AI加速器,也是首款专为推理而设计的加速器。

官方公布Ironwood的峰值计算性能是上代Trillium的5倍,将大幅加速AI推理效率。

除了以上这些外,Google还更新了不少其他的AI开发小套件、解决方案。

在这里看到GoogleCloudNext2025的完整官方公告:https://blog.google/products/google-cloud/next-2025/

差不多就是这些内容,我最期待Gemini2.5Flash,你最期待哪个更新?

你觉得Google又是否能借这次Next25,重新当回AI界老大哥呢?

[GoogleCloudNext25官方原文大合集]:https://blog.google/products/google-cloud/next-2025

Gemini2.5Flash:https://cloud.google.com/blog/products/ai-machine-learning/gemini-2-5-pro-flash-on-vertex-ai

VertexAI-Veo2/Chirp3/Lyria/Imagen3:https://cloud.google.com/blog/products/ai-machine-learning/expanding-generative-media-for-enterprise-on-vertex-ai

GoogleAI的601个落地案例:

IronwoodTPU:https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/

文内提到的可体验内容

FirebaseStudio:https://idx.google.com/

GoogleAIStudio:https://aistudio.google.com/

Chirp3:https://cloud.google.com/text-to-speech/docs/chirp3-hd

Imagen3:https://labs.google/fx/zh/tools/image-fx

Waitlist申请地址

Veo2:https://docs.google.com/forms/d/e/1FAIpQLSfdksQf4brbFzAx5l1geMx7DlBTjoZKjA4DuI3uTiETCB-0hg/viewform

来源:小鱼看科技

相关推荐