摘要:最近 AI 圈又掀起了一波文生图的热潮,OpenAI 正式发布了 GPT-4o 的图像生成功能!直接打开官网你就能感受到这次升级有多“香”。好像自从 DeepSeek 火起来以后,关于 OpenAI,Google 或者其他 AI 科技公司的消息就少了很多,也许
最近 AI 圈又掀起了一波文生图的热潮,OpenAI 正式发布了 GPT-4o 的图像生成功能!直接打开官网你就能感受到这次升级有多“香”。好像自从 DeepSeek 火起来以后,关于 OpenAI,Google 或者其他 AI 科技公司的消息就少了很多,也许是 DeepSeek 的强大,估计大家都在忙着学习的吧。
代码生成的图像
GPT-4o 图像生成:不只是画画,是“视觉魔法”!
以前的 AI 画图工具,比如 DALL-E,听起来很酷,但用起来总感觉差点意思——文字渲染歪七扭八,细节经常翻车。而这次 GPT-4o 的图像生成,直接把这些问题踩在脚下。它不是单独的图像模型,而是“天生”嵌在 GPT-4o 里,文字、图像无缝融合,堪称 AI 界的“全能选手”。能够实现精确、准确、逼真的输出的原生多模式模型来解锁有用且有价值的图像生成。
GPT-4o 图像生成
输入文本:A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.GPT-4o 图像生成
selfie view of the photographer, as she turns around to high five himGPT-4o 图像生成
从最早的洞穴壁画到现代的信息图表,人类一直运用视觉图像进行交流、记录和分析,而不仅仅是为了装饰。如今的文生图模型可以创造出超现实、令人惊叹的场景,但却难以驾驭人们用来分享和创造信息的日常图像。从徽标到图表,图像在融入象征共同语言和经验的符号后,可以传达精准的含义。
GPT-4o 图像生成
OpenAI 官方放话:这次的目标是“实用图像生成”(useful image generation)。啥意思?就是不光能画出好看的风景或者二次元小姐姐,还能搞定logo、图表、菜单这种“接地气”的活儿。随便举个例子,你丢给它一句:“画个带文字的餐厅菜单,复古风格”,它就能给你整出一张清晰、好看还能直接打印的图,文字还不会乱飘,简直是设计师的“救命稻草”!
创作一张逼真的图片,描绘两位二十多岁的女巫(一位染着浅灰色挑染,另一位留着长长的赤褐色波浪发)正在阅读路牌。GPT-4o 图像生成
GPT-4o 图像生成功能擅长精准渲染文本、精准遵循提示,并充分利用 4o 固有的知识库和聊天上下文——包括转换已上传的图像或将其用作视觉灵感。这些功能让您能够更轻松地创建您设想的图像,帮助您通过视觉效果更有效地进行沟通,并将图像生成功能提升为一款精准而强大的实用工具。
GPT-4o 图像生成
由于图像生成现已成为 GPT-4o 的原生功能,用户可以通过自然对话来优化图像。GPT-4o 可以在聊天环境中基于图像和文本进行构建,从而确保始终保持一致。例如,如果您正在设计一个电子游戏角色,那么在您不断改进和实验的过程中,该角色的外观在多次迭代中始终保持一致。
第一步:给这只猫一顶侦探帽和一副单片眼镜GPT-4o 图像生成
第二步:将其变成使用 4k 游戏引擎制作的 3A 视频游戏,并添加一些用户界面作为神秘 RPG 的覆盖层,我们可以在顶部看到健康栏和小地图,在底部看到具有一致图像的法术GPT-4o 图像生成
第三步:更新为 16:9 比例的横向图像,在 UI 中添加更多咒语,并缩小视觉效果,以便我们以第三人称视角看到猫穿过蒸汽朋克曼哈顿,创造出美丽的对比度和灯光,就像在最好的 3A 游戏中一样,具有冷色调GPT-4o 图像生成
可以看出,模型根据用户的需求,更改图片的风格,但是主体保持的很好。
硬核能力:文字、细节、上下文全拿捏
这次 GPT-4o 的图像生成有几个亮点,真的让人忍不住喊“绝了”:
文字渲染超精准:想在图里加字?随便你写长写短,字体、排版都妥妥的,比以前的 DALL-E 强了十条街。比如你让它画个路牌,上面写“Welcome to火星”,它能给你整得像真的一样。听话到爆:你说啥它画啥,细节控的福音。官网有个例子,输入“两个20多岁的女巫读路牌,一个灰棕渐变发色,一个 auburn 波浪长发”,结果出来后细节满满,连发色都丝毫不差。上下文记忆:聊天时上传张图,让它改成“动漫风”或者“加个熊”,它能记住之前的内容,改出来的图还是一脉相承,不会出现“前后不搭”的尴尬。更别提它还能根据你的聊天记录“脑补”灵感。比如你聊着聊着说“设计个游戏角色”,它能直接根据之前的描述画出来,还能一改再改,始终保持一致性。这不就是个贴心的小助理吗?GPT-4o 图像生成
最让人兴奋的是,这功能已经开始向所有 ChatGPT 用户(包括免费版!)推送了!不管你是 Plus、Pro、Team 还是免费党,都能去试试水。企业版和教育版稍后也会跟上,开发者还能通过 API 接入,简直是全民狂欢的节奏。
当然,免费用户可能有次数限制,毕竟 OpenAI 的 GPU 也不是大风刮来的(听说需求太高,服务器都“冒烟”了)。但对个人来说,这已经够用了。随便写个脚本灵感、做个封面图,甚至还能整点搞笑表情包,成本几乎为零!
GPT-4o 图像生成
用起来有多简单?三步搞定!
想试试 GPT-4o 的图像生成有多强?操作简单到爆:
打开 ChatGPT,选 GPT-4o 模型。
直接输入你的需求,比如“画个赛博朋克风格的未来城市,带霓虹灯和飞车”。
GPT-4o 图像生成
不喜欢?直接跟它说“改成黑白风”或者“加点细节”,它还能接着改,互动感拉满。官网上还有一堆示例,随手一试就能上手。
对个人创作者来说,GPT-4o 图像生成可以免费生成,简直不要不要的。以前做图要么自己抠半天,要么花钱找设计师,现在直接丢给 AI,几分钟就能出成品。写文章配图、做视频封面、甚至设计品牌 logo,效率直接起飞。更别提还能拿它搞点创意,比如把自己的自拍改成“吉卜力风”,发到社交媒体绝对吸睛无数!
easy control 生成
当然,天下没有完美的 AI。OpenAI 也坦白说了几个小问题:比如长图可能会裁得有点紧,低上下文时可能“脑补”过头,非拉丁文字渲染偶尔会翻车。不过这些都在改进中,对日常使用影响不大。毕竟,能把实用性和美感做到这个地步,已经够卷了!
GPT-4o 图像生成
这次 GPT-4o 图像生成的上线,不只是技术升级那么简单。Google 的 Gemini 刚秀了肌肉,OpenAI 立马跟进,AI 战场的“军备竞赛”越来越刺激。听说 GPT-4o 还跟 Sora(OpenAI 的视频生成工具)联动了,未来如何,想象空间直接拉满。
来源:人工智能研究所