谷歌发布Gemini 2.5 Flash Image:技术领先、定价亲民,竞逐AI图像

360影视 欧美动漫 2025-08-28 08:11 2

摘要:谷歌DeepMind发布Gemini 2.5 Flash Image(代号 “Nano Banana”),已提供预览,数周后推稳定版,定价低于OpenAI同类模型。该模型测试时获 “全球评分最高编辑模型”,在角色一致性、精准编辑等方面表现优异,较前代有大幅改进

划重点

谷歌DeepMind发布Gemini 2.5 Flash Image(代号 “Nano Banana”),已提供预览,数周后推稳定版,定价低于OpenAI同类模型。该模型测试时获 “全球评分最高编辑模型”,在角色一致性、精准编辑等方面表现优异,较前代有大幅改进。AI图像模型成科技巨头竞争焦点,OpenAI、Meta、Black Forest Labs各有动作,谷歌望借此缩小与OpenAI用户差距。模型设安全防护,禁生成非同意私密图像,AI生成图加视觉水印与元数据标识,但存在用户难留意标识的问题。

当地时间8月26日消息,谷歌DeepMind发布新一代AI图像生成与编辑模型Gemini 2.5 Flash Image(代号“Nano Banana”),并将其整合进Gemini应用的原生图像编辑功能。该模型现已通过Gemini API、Google AI Studio和Vertex AI提供预览,预计数周内推出稳定版本。

此次发布不仅是一次技术升级,也被视为谷歌在与OpenAI的多模态竞争中打出的定价牌。Gemini 2.5 Flash Image定价为每百万输出token 30美元,每张图像消耗约1290 token(约合0.039美元)。相比之下,OpenAI同类模型的定价为每百万 token 40美元。在企业和开发者对AI成本愈发敏感的背景下,这一价差可能成为Gemini的关键竞争优势。

Gemini 2.5 Flash Image表现优于同类模型

在Gemini 2.5 Flash Image正式发布前,谷歌DeepMind曾以代号Nano Banana,在LMArena平台悄悄对其展开测试。作为一个公开的AI模型评价平台,LMArena通过众包模式收集用户对人工智能模型质量的匿名反馈。测试初期,由于Nano Banana的名称过于怪异,外界完全不了解这款新模型的具体背景与属性,但凭借其表现,用户很快推断出它的开发者必定是谷歌。

在早期预览阶段,Nano Banana的性能便超越了LMArena平台上所有其他图片编辑类模型,斩获 “全球评分最高的编辑模型” 称号。尽管该模型并非毫无缺陷,但在核心的一致性、输出质量、指令遵循度三大维度上,其表现均显著优于同类模型,充分展现了技术优势。

DeepMind表示,Gemini 2.5 Flash Image相较今年早些时候发布的Gemini 2.0 Flash Image,在图像质量、编辑控制和应用场景上有大幅改进。用户不仅可以对人物和宠物进行精准编辑,保持其特征一致,还能实现多图合成、多轮次修改与风格迁移等复杂操作。

01.角色一致性

图像生成领域的一个核心挑战是在多次提示和编辑中保持角色或物体的外观一致性。Gemini 2.5 Flash Image通过先进技术完美应对这一难题,支持将同一角色置于不同场景、展示产品在多角度与多环境下的效果,或生成统一的品牌资产,同时确保主体外观高度一致。

为便于用户体验这一功能,谷歌DeepMind在Google AI Studio中开发了一款可定制的模板应用,允许用户基于其进行代码开发,充分感受模型在角色一致性方面的能力。此外,该模型在遵循视觉模板方面表现优异,已被开发者广泛应用于房地产展示卡、统一员工徽章以及产品目录动态模型等领域,仅需单一设计模板即可实现输出。

02.基于提示的精准图像编辑

Gemini 2.5 Flash Image支持通过自然语言进行精准的局部编辑与目标性转换。用户仅需输入简单文本提示,即可实现背景模糊、去除衣物污渍、删除照片中的人物、调整主体姿势,或为黑白照片添加色彩等多样化操作,极大地释放了创意潜能。

为展示这一功能,谷歌DeepMind在Google AI Studio中提供了一款照片编辑模板应用,配备直观的用户界面和基于提示的控制功能,让用户能够轻松体验高效、便捷的高级编辑。

03.融入现实世界知识

相较于传统图像生成模型在美观图像生成上的优势,Gemini 2.5 Flash Image通过整合Gemini的世界知识,突破了语义理解的局限,开辟了全新应用场景。

为展示这一特性,谷歌DeepMind在Google AI Studio中开发了一款交互式教育工具模板应用,将简单画布转化为智能教育平台。该应用能够读取和理解手绘图表,解答现实世界问题,并一步完成复杂编辑指令,充分体现模型的智能性与实用性。

04.多图像融合

Gemini 2.5 Flash Image能够理解并融合多张输入图像。用户可通过单一提示将物体置入新场景、为房间重新设计配色或纹理,或生成逼真的多图融合图像,满足多样化的创作需求。

为展示这一功能,谷歌DeepMind在Google AI Studio中开发了一款模板应用,用户可通过拖放操作将产品置入新场景,快速生成逼真的融合图像,极大提升了创作效率。

02 市场竞争进一步加剧

AI图像模型已成为科技巨头的核心竞争领域。今年3月,OpenAI推出集成于GPT-4o的原生图像生成功能,当时AI生成的吉卜力工作室(Studio Ghibli)风格表情包掀起热潮。OpenAI首席执行官山姆・奥特曼(Sam Altman)曾表示,这股热潮甚至导致公司的GPU“濒临过载”,也推动ChatGPT的使用量大幅飙升。

为紧跟OpenAI与谷歌的步伐,Meta在8月23日宣布将从初创企业Midjourney授权AI图像模型。与此同时,由风投公司a16z(安德森・霍洛维茨基金)投资的德国独角兽企业Black Forest Labs,其开发的FLUX AI图像模型仍在各类基准测试中保持领先地位。

Gemini此次推出的高性能AI图像编辑功能,或许能帮助谷歌缩小与OpenAI之间的用户差距。目前,ChatGPT的周活跃用户已超7亿人;而在今年7月谷歌母公司Alphabet的财报电话会议上,公司首席执行官桑达尔・皮查伊(Sundar Pichai)曾透露,Gemini的月活跃用户为4.5亿,意味着Gemini的周活跃用户数量会更低。

尽管Gemini 2.5 Flash Image降低了用户创作和编辑真实感图像的门槛,但谷歌也设置了安全防护机制,限制用户生成特定内容。事实上,谷歌过去在AI图像生成器的安全防护方面曾遭遇挑战:此前,Gemini因生成与历史事实不符的人物图像引发争议,谷歌不仅为此致歉,还一度下架了该AI图像生成功能。

如今,谷歌认为其已在功能与安全之间找到更优平衡。谷歌服务条款中关于生成式AI的部分明确规定,禁止用户生成“未经同意的私密图像”。而类似的防护机制在Grok中似乎并不存在——Grok曾允许用户生成酷似泰勒・斯威夫特等名人的AI露骨图像。

针对深度伪造图像(deepfake imagery)日益增多、导致用户难以辨别网络信息真实性的问题,谷歌为AI生成的图像添加视觉水印,并在元数据中嵌入标识信息。不过,用户在社交媒体上快速浏览图像时,可能并不会特意留意这些标识。

来源:晚晚的星河日记一点号

相关推荐