实测盘点GPT4o生图能力：AI生图从“可用”向“实用”的跨越

摘要：丨导语 3月26日约凌晨，OpenAI 发布重大更新GPT4o生图能力，我们联合腾讯新闻频道、以及多篇权威媒体实测内容，为大家整理盘点了OpenAI核心生图发展路线、实测效果下解读它表现优异的典型场景、能力突破、以及细分不足之处，供大家快速了解最新模型能力边

丨共同作者mmzheng

丨导语 3月26日约凌晨，OpenAI 发布重大更新GPT4o生图能力，我们联合腾讯新闻频道、以及多篇权威媒体实测内容，为大家整理盘点了OpenAI核心生图发展路线、实测效果下解读它表现优异的典型场景、能力突破、以及细分不足之处，供大家快速了解最新模型能力边界与应用效果。

时间模型/产品核心能力进展2021.1DALL·E 11. 首次实现文本到图像生成，由 120 亿参数版本的 GPT-3模型经过 4 亿对图像和文本训练而来
2. 分辨率低（256×256），细节模糊，无法处理复杂指令

2021.11

GLIDE

1. 采用引导扩散模型（Guided Diffusion）提高文本控制能力
2. 在较小参数量（35亿）基础上实现了比DALL-E更好的图片效果。以猫在跳棋为例，GLIDE模型生成具有阴影和反射的逼真图像，并以正确的方式组合多个概念
3. GLIDE 对某些文本输入（如生成方轮汽车）无法生成结果，且速度较慢

2022年4月DALL·E 21. 引入 CLIP 先验模型，增强文本-图像对齐
2. 分辨率提升至 1024x1024，支持图像编辑与风格变化2022年11月开放API对外开放 DALL·E 的 API 接口，开启商业化运营，根据分辨率的不同，每张收
费价格为 0.016-0.02 美元2023年9月DALL·E 31. DALL-E3与ChatGPT深度集成，允许用户使用 ChatGPT 创建提示并包含更多安全选项
2. 支持多轮对话调整图像，文本渲染能力显著提升2025年3月GPT-4o原生多模态图像生成，精准文本渲染，多轮编辑一致性控制等（Now）

与过去难以生成清晰、恰当位置展示文字的AI模型不同，GPT-4o现在可以准确地将文字嵌入图像中

大段文字输出情况下没有错别字的产生（官方直播演示）

GPT-4o 的绘图，能够从大模型中直接获取到知识，生成与现实世界知识相符的图像，无需用户给出精准专业的内容提示词

OpenAI 官方主动提出，和其他语言模型一样，图像生成也可能出现错误信息，尤其是在上下文提示不足的情况下。

比如世界地图中，出现两个埃及Egypt，两个越南Vietnam

GPT‑4o’s image generation follows detailed prompts with attention to detail. While other systems struggle with ~5-8 objects, GPT‑4o can handle up to 10-20 different objects. The tighter binding of objects to their traits and relations allows for better control.

GPT‑4o 的图像生成遵循详细的提示，注重细节。其他系统在处理约 5-8 个对象时会遇到困难，而 GPT‑4o 可以处理 10-20 个不同的对象。对象与其特征和关系的更紧密绑定可以实现更好的控制。