OpenAI 新王炸！GPT-4o 图像生成上线，AI 画画直接“卷”出新高度！

摘要：最近 AI 圈又掀起了一波文生图的热潮，OpenAI 正式发布了 GPT-4o 的图像生成功能！直接打开官网你就能感受到这次升级有多“香”。好像自从 DeepSeek 火起来以后，关于 OpenAI，Google 或者其他 AI 科技公司的消息就少了很多，也许

最近 AI 圈又掀起了一波文生图的热潮，OpenAI 正式发布了 GPT-4o 的图像生成功能！直接打开官网你就能感受到这次升级有多“香”。好像自从 DeepSeek 火起来以后，关于 OpenAI，Google 或者其他 AI 科技公司的消息就少了很多，也许是 DeepSeek 的强大，估计大家都在忙着学习的吧。

代码生成的图像

GPT-4o 图像生成：不只是画画，是“视觉魔法”！

以前的 AI 画图工具，比如 DALL-E，听起来很酷，但用起来总感觉差点意思——文字渲染歪七扭八，细节经常翻车。而这次 GPT-4o 的图像生成，直接把这些问题踩在脚下。它不是单独的图像模型，而是“天生”嵌在 GPT-4o 里，文字、图像无缝融合，堪称 AI 界的“全能选手”。能够实现精确、准确、逼真的输出的原生多模式模型来解锁有用且有价值的图像生成。

GPT-4o 图像生成

输入文本：A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

GPT-4o 图像生成

selfie view of the photographer, as she turns around to high five him

GPT-4o 图像生成

从最早的洞穴壁画到现代的信息图表，人类一直运用视觉图像进行交流、记录和分析，而不仅仅是为了装饰。如今的文生图模型可以创造出超现实、令人惊叹的场景，但却难以驾驭人们用来分享和创造信息的日常图像。从徽标到图表，图像在融入象征共同语言和经验的符号后，可以传达精准的含义。

GPT-4o 图像生成

OpenAI 官方放话：这次的目标是“实用图像生成”（useful image generation）。啥意思？就是不光能画出好看的风景或者二次元小姐姐，还能搞定logo、图表、菜单这种“接地气”的活儿。随便举个例子，你丢给它一句：“画个带文字的餐厅菜单，复古风格”，它就能给你整出一张清晰、好看还能直接打印的图，文字还不会乱飘，简直是设计师的“救命稻草”！

创作一张逼真的图片，描绘两位二十多岁的女巫（一位染着浅灰色挑染，另一位留着长长的赤褐色波浪发）正在阅读路牌。

GPT-4o 图像生成

GPT-4o 图像生成功能擅长精准渲染文本、精准遵循提示，并充分利用 4o 固有的知识库和聊天上下文——包括转换已上传的图像或将其用作视觉灵感。这些功能让您能够更轻松地创建您设想的图像，帮助您通过视觉效果更有效地进行沟通，并将图像生成功能提升为一款精准而强大的实用工具。

GPT-4o 图像生成

由于图像生成现已成为 GPT-4o 的原生功能，用户可以通过自然对话来优化图像。GPT-4o 可以在聊天环境中基于图像和文本进行构建，从而确保始终保持一致。例如，如果您正在设计一个电子游戏角色，那么在您不断改进和实验的过程中，该角色的外观在多次迭代中始终保持一致。

第一步：给这只猫一顶侦探帽和一副单片眼镜

GPT-4o 图像生成

第二步：将其变成使用 4k 游戏引擎制作的 3A 视频游戏，并添加一些用户界面作为神秘 RPG 的覆盖层，我们可以在顶部看到健康栏和小地图，在底部看到具有一致图像的法术

GPT-4o 图像生成

第三步：更新为 16:9 比例的横向图像，在 UI 中添加更多咒语，并缩小视觉效果，以便我们以第三人称视角看到猫穿过蒸汽朋克曼哈顿，创造出美丽的对比度和灯光，就像在最好的 3A 游戏中一样，具有冷色调

GPT-4o 图像生成

可以看出，模型根据用户的需求，更改图片的风格，但是主体保持的很好。

硬核能力：文字、细节、上下文全拿捏

这次 GPT-4o 的图像生成有几个亮点，真的让人忍不住喊“绝了”：

文字渲染超精准：想在图里加字？随便你写长写短，字体、排版都妥妥的，比以前的 DALL-E 强了十条街。比如你让它画个路牌，上面写“Welcome to火星”，它能给你整得像真的一样。听话到爆：你说啥它画啥，细节控的福音。官网有个例子，输入“两个20多岁的女巫读路牌，一个灰棕渐变发色，一个 auburn 波浪长发”，结果出来后细节满满，连发色都丝毫不差。上下文记忆：聊天时上传张图，让它改成“动漫风”或者“加个熊”，它能记住之前的内容，改出来的图还是一脉相承，不会出现“前后不搭”的尴尬。更别提它还能根据你的聊天记录“脑补”灵感。比如你聊着聊着说“设计个游戏角色”，它能直接根据之前的描述画出来，还能一改再改，始终保持一致性。这不就是个贴心的小助理吗？