摘要:自从OpenAI发布GPT-4o图像生成功能以来,各大社交媒体都可以看到其生成案例。最近几天,各路社交媒体都被“吉卜力”风格的图像、视频刷了屏。
整理自 | 机器之心、新智元
自从OpenAI发布GPT-4o图像生成功能以来,各大社交媒体都可以看到其生成案例。最近几天,各路社交媒体都被“吉卜力”风格的图像、视频刷了屏。
然而除了风格转绘,GPT-4o到底有哪些功能?又是什么样的底层算法支撑其实现如此强大的图像生成能力?本文尽可能搜集了目前互联网上的相关信息,来回答这些问题,一起来看看吧~
01 ✦ 能力全收集
GPT-4o
✦
GPT4o的能力不仅仅在停留在生成特别火爆的吉卜力风格上,而是涵盖了风格重绘、合成和形象迁移、设计参考、文字设计和包装案例等各个方面。
风格重绘
将照片的风格替换为皮克斯、3D、黑白、写实等各种不同风格。
合成、形象迁移
可以将图片风格替换为另外一张图片的风格,或者将原照片放在一个新的场景中。
设计参考
GPT-4o除了完成美术工作,也可以提供设计参考。比如你可以让GPT-4o重新设计Logo的风格。
科研绘制修改
除了用来「整活」,GPT-4o在偏向于严肃的科研也能大显身手。
比如对遥感影像中的物体进行区分后叠加要素,或者是根据点云生成真实世界的图像。
修图、更换实体
GPT-4o还被网友发现能用来PS直出。
比如替换图片中的实体元素,更换图片背景,甚至还能更换展示模特手中的商品。
02 ✦ 更自由的生成能力
GPT-4o
✦
除了效果的大幅提升,这次GPT-4o更新还有一个值得关注的变化:内容限制似乎比以前少了很多,很多公众人物,如马斯克、特朗普等现在都可以生成。而之前,模型会直接拒绝这类请求。
为什么会发生这种变化?昨晚,OpenAI的模型行为负责人Joanne Jang发文做出了解释。
她表示:
OpenAI正从敏感领域的全面拒绝转向更精确的方法,专注于防止现实世界的伤害。
目标是保持谦逊:认识到我们不知道的有多少,并让自己能够随着学习而适应。
图像有一种独特而强大的震撼力;它们能带来无与伦比的愉悦和冲击。与文本不同,图像超越语言障碍,唤起各种情感反应。它们能立即阐明复杂的想法。
正因为图像具有如此大的影响力,我们在制定政策和行为方面感到比其他发布更重的责任。当涉及到发布新功能时,我们的观点已经在多次发布中演变:
相信用户的创造力胜过我们自己的假设。AI实验室员工不应该成为决定人们应该或不应该创造什么的仲裁者。发布后我们总是感到谦卑,发现了我们从未想象过的使用案例 —— 甚至有些事后看来如此明显,但由于我们视角有限而没有想到。
清晰地看到风险,但不要忽视对用户的日常价值。专注于潜在危害很容易,广泛的限制总是感觉最安全(也最容易!)。我们经常发现自己在质疑,「当同样的梗图可能被用来冒犯或伤害人们时,我们真的需要更好的梗图功能吗?」。但我认为这种框架本身就有缺陷。它暗示着细微的、日常的好处必须在假设的最坏情况下证明自己,而这种情况低估了这些快乐、幽默和联系的小时刻如何真正改善人们的生活。
重视未知、无法想象的可能性。也许是由于我们对损失厌恶的认知偏见,我们很少考虑不作为的负面影响;有些人称之为「无形的墓地」,尽管这有点太阴暗和极端。新功能解锁的二阶或间接影响:所有那些因为我们害怕最坏情况而从未实现的积极互动、创新和想法现在可以实现了。
应对这些挑战很困难,但我们的目标是最大限度地发挥创造自由,同时防止真正的伤害。
总之,以上种种考虑,加上OpenAI在精确评估技术方面的进步,促使他们采取了更宽松的政策。
这也解释了为什么我们现在可以看到那么多吉卜力风格的图像,因为GPT-4o现在被允许模仿皮克斯、吉卜力等创意工作室的风格。
目前已经可以看到的是,GPT-4o所带来的效果提升正在给广告、影视、游戏等行业带来新变化。
03 ✦ 关于生成能力的猜想
GPT-4o
✦
OpenAI一向并不Open,这次也不例外。他们只是发布一份GPT-4o系统卡附录(增补文件),其中也主要是论述了评估、安全和治理方面的内容。
地址:https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
对于技术,在这份长达13页的附录文件中,也仅在最开始时提到了一句:“不同于基于扩散模型的DALL・E,4o图像生成是一个嵌入在ChatGPT中的自回归模型。”
OpenAI对技术保密,也抵挡不住大家对GPT-4o工作方式的热情,现在网络上已经出现了各种猜测、逆向工程。
比如谷歌DeepMind研究者Jon Barron根据4o出图的过程猜测其可能是组合使用了某种多尺度技术与自回归。
不过,值得一提的是,香港中文大学博士生刘杰(Jie Liu)在研究GPT-4o的前端时发现,用户在生成图像时看到的逐行生成图像的效果其实只是浏览器上的前端动画效果,并不能准确真实地反映其图像生成的具体过程。实际上,在每次生成过程中,OpenAI的服务器只会向用户端发送5张中间图像。您甚至可以在控制台手动调整模糊函数的高度来改变生成图像的模糊范围!
因此,在推断GPT-4o的工作原理时,其生成时的前端展示效果可能并不是一个好依据。
尽管如此,还是让我们来看看各路研究者都做出了怎样的猜测。整体来说,对GPT-4o原生图像生成能力的推断主要集中在两个方向:自回归 + 扩散生成、非扩散的自回归生成。下面我们详细盘点一下相关猜想,并会简单介绍网友们猜想关联的一些相关论文。
猜想一:自回归 + 扩散
很多网友猜想GPT-4o的图像生成采用了「自回归 + 扩散」的范式。比如CMU博士生Sangyun Lee在该功能发布后不久就发推猜想GPT-4o会先生成视觉token,再由扩散模型将其解码到像素空间。而且他认为,GPT-4o使用的扩散方法是类似于Rolling Diffusion的分组扩散解码器,会以从上到下的顺序进行解码。
他进一步给出了自己得出如此猜想的依据。
理由 1:如果有一个强大的条件信号(如文本,也可能有视觉token),用户通常会先看到将要生成的内容的模糊草图。因此,那些待生成区域会显示粗糙的结构。
理由 2:其UI表明,图像是从顶部到底部生成的。Sangyun Lee 曾在自己的研究中尝试过底部到顶部的顺序。
Sangyun Lee猜想到,这样的分组模式下,高NFE(函数评估数量)区域的FID会更好一些。但在他研究发现这一点时,他只是认为这是个bug,而非特性。但现在情况不一样了,人们都在研究测试时计算。
最后,他得出结论说:「因此,这是一种介于扩散和自回归模型之间的模型。事实上,通过设置num_groups=num_pixels,你甚至可以恢复自回归!」
另外也有其他一些研究者给出了类似的判断:
猜想二:非扩散的自回归生成
使用过GPT-4o的都知道,其在生成图像的过程中总是先出现上半部分,然后才生成完整的图像。
Moonpig公司AI主管Peter Gostev认为,GPT-4o是采用从图像的顶部流token开始生成图像的,就像文本生成方式一样。
Gostev表示,与传统的图像生成模型相比,GPT-4o图像生成的关键区别在于它是一个自回归模型。这意味着它会像生成文本一样,按顺序逐个流式传输图像token。相比之下,基于扩散过程的模型(例如 Midjourney、DALL-E、Stable Diffusion)通常是从噪声到清晰图像一次性完成转换。
这种自回归模型的主要优势在于,模型不需要一次性生成整个全局图像。相反,它可以通过以下方式来生成图像:
利用其模型权重中嵌入的通用知识。
通过按顺序流式传输token来更连贯地生成图像。
更进一步的,Gostev认为,如果你使用ChatGPT并点击检查(Inspect),然后在浏览器中导航到网络(Network)标签,就可以监控浏览器与服务器之间的流量。这让你能够查看ChatGPT在图像生成过程中发送的中间图像,从而获得一些有价值的线索。
Gostev给出了一些初步的观察结果(可能并不完整):
图像是从上到下生成的,这个过程确实涉及流token,与扩散方法截然不同。
从一开始,就可以看到图像的大致轮廓,先前生成的像素在生成过程中可能会发生显著变化,这可能表明模型采用了某种连贯性优化,尤其是在接近完成阶段时更加明显。
最后,Gostev表示还有一些无法直接从图像中看到的额外观察结果:
对于简单的图像生成,GPT-4o速度要快得多,通常只有一个中间图像,而不是多个。这可能暗示使用了推测解码或其他类似方法。
图像生成还具备背景移除功能,从目前的情况来说,最初GPT-4o生成图片会呈现一个假的棋盘格背景,直到最后才移除实际背景,这会略微降低图像质量。这似乎是一个额外的处理过程,而不是GPT-4o本身的功能。
开发者 @KeyTryer也给出了自己的猜想。他说4o是一种自回归模型,通过多次通过来逐像素地生成图像,而不是像扩散模型那样执行去噪步骤。
而这种能力本身就是GPT-4o LLM神经网络的一部分。理论上讲,它能够比扩散系统更好地掌握它们正在操作的概念,而扩散系统只是对随机噪声的一种猜测。
GPT-4o还能够使用 LLM「知道」的信息来生成图像。也因此,它们具有更好的泛化能力,能够使用多条消息进行上下文学习,通过特定的编辑输出相同(或非常接近)的结果,并且具有广义的空间和场景感。
芬兰赫尔辛基的大学副教授Luigi Acerbi也指出,GPT-4o基本就只是使用Transformer来预测下一个token,并且其原生图像生成能力一开始就有,只是一直以来都没有公开发布。
不过,Acerbi教授也提到,OpenAI可能使用了扩散模型或或一些修饰模型来为GPT-4o生成的图像执行一些清理或添加小细节。
读者朋友们有没有尝试使用GPT-4o生成图片或进行风格转绘呢?你认为与其他AI生图模型相比哪个更好用?欢迎在评论区留下你的看法~⬇️⬇️
来源:影视制作杂志