摘要:前几天,一个神秘代号“nano-banana”的图像生成和编辑新模型在社交媒体上突然爆火,除了风格化稍弱,其他方面堪称王者级的存在。
前几天,一个神秘代号“nano-banana”的图像生成和编辑新模型在社交媒体上突然爆火,除了风格化稍弱,其他方面堪称王者级的存在。
它到底有多强?看看网友们的测试案例就知道了。
让两人自拍合照, 图片来源:X@RetropunkAI
让两人坐在台球桌边上,又让她们开始打台球,图片来源:X@D_studioproject
最开始,它只是悄悄出现在 https://lmarena.ai/?chat-modality=image 的随机模型测试里,没人知道它从哪来,但所有人都被它的能力震撼了。大家纷纷猜测:这到底是哪家憋的大招?
Google DeepMind 负责人 Logan Kilpatrick 在社交媒体 X 上发布了一个简单的香蕉表情——🍌。
所有人都懂了。
果然是谷歌!
昨天,谷歌正式发布了这款名为 Gemini 2.5 Flash Image 的模型,丢掉了“nano-banana”这个代号,网友们还不乐意了:保留nano-banana名字好吗?
那么,它到底有多强?
在图像编辑方面,除了风格化稍弱于 ChatGPT 4o 和 Qwen Image Edit,其他方面全面超越 FLUX.1 Kontext [max]、Qwen Image Edit 和 Gemini 2.0 Flash Image。
这一发布标志着 AI 图像编辑领域的又一次重大突破。正如 Google 官方开发者博客所述:
“Gemini 2.5 Flash Image(aka nano-banana)是我们最先进的图像生成和编辑模型。这一更新使您能够将多张图像融合为单一图像,为丰富的叙事保持角色一致性,使用自然语言进行有针对性的转换,并利用 Gemini 的世界知识生成和编辑图像。”
Gemini 2.5 Flash Image 的发布立即引起了业界的广泛关注和积极评价。来自各大科技公司和创意机构的专家们纷纷给予了高度评价。
Poe(by Quora)AI 生态系统负责人 Nick Huber 表示:
“Gemini 2.5 Flash Image 在保持跨编辑一致性方面表现出显著优势——在多次修订周期中既保留了细粒度的视觉细节,又保留了高级场景语义。结合其低响应时间,这支持了更自然的对话式编辑循环,并支持在 Poe 上和通过 API 部署实时基于图像的应用。”
WPP 全球创意和创新负责人 Daniel Barak 评价道:
“Gemini 2.5 Flash Image 是 Google 生成媒体模型套件的一个令人难以置信的补充。我们在多个 WPP 客户和产品中测试了它,对输出质量印象深刻。我们看到了在多个领域的强大用例,特别是零售业(能够将多个产品组合到单个框架中)和 CPG(在框架之间保持高度的对象一致性)。”
Freepik 首席执行官 Joaquin Cuenca 指出:
“对于任何处理视觉内容的人来说,Gemini 2.5 Flash Image 都是一个重大升级。放置产品、保持风格一致性和确保角色一致性都可以在一步完成。该模型轻松处理复杂编辑,立即产生看起来精致和专业的结果。”
Leonardo.Ai 首席执行官 JJ Fiasson 认为:
“编辑需要任何创意过程中的最高级别控制。Gemini 2.5 Flash Image 直接满足这一需求,提供精确的迭代更改。它还表现出极大的灵活性——允许对图像进行重大调整,同时保持角色和对象一致性。从我们在 Leonardo.Ai 的早期测试来看,该模型将启用全新的工作流程和创意可能性,代表了真正的变革。”
现在,这个强大的模型已经可以免费使用了!
开发人员现在可通过 Gemini API 和 Google AI Studio 以及面向企业的 Vertex AI 获得。Gemini 2.5 Flash Image 的价格为每 100 万个输出代币 30.00 美元,每张图像为 1290 个输出代币(每张图像 0.039 美元)。所有其他输入和输出模式均遵循 Gemini 2.5 Flash 定价。
官方还构建了一个将简单的画布变成了一个互动式教育导师的模板应用。它展示了模型阅读和理解手绘图表、帮助解决现实世界问题以及在一个步骤中遵循复杂编辑说明的能力。
https://aistudio.google.com/apps/bundled/codrawing?showAssistant=true&showPreview=true
以及一个将商品拖到新场景中,以快速创建新的逼真的融合图片的模板应用。
https://aistudio.google.com/apps/bundled/home_canvas?showPreview=true&showAssistant=true
对于开发者,官方也给出了快速入门的简单示例:
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(model="gemini-2.5-flash-image-preview", contents=[prompt, image],)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image=Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
这一波谷歌真的是拿出了硬实力。从测试结果到业界评价,从应用场景到开发支持,Gemini 2.5 Flash Image 展现出了令人惊叹的综合实力。
传统的图像编辑软件,真的到了该说再见的时候?当 AI 能够如此精准地理解和执行我们的创意指令,当复杂的图像编辑变得像说话一样简单,我们还需要学习那些复杂的软件操作吗?
高端的技术突破,往往带来的就是这种“朴实无华”的变革。不需要华丽的宣传,不需要夸张的承诺,只用实力说话,用结果证明。
来源:算泥社区