字节开源SuperEdit图像编辑方法,AI的P图水平如何?

360影视 日韩动漫 2025-05-06 15:40 3

摘要:字节的ByteDance Intelligent Creation (USA) 团队开源了SuperEdit项目,帮助AI提升P图水平,项目包含数据和模型。(所以直男没救了吗?)

往朋友圈发照片之前,很多人都会做的一件事就是:P图。

甚至友谊的小船也因此说翻就翻:“为什么只P你自己?”。

P图好像一直都是一件困难的事,不只是直男学不会,AI也学不会。

字节的ByteDance Intelligent Creation (USA) 团队开源了SuperEdit项目,帮助AI提升P图水平,项目包含数据和模型。(所以直男没救了吗?)

开场:为什么一部“图像听指令”的大片会翻车?

把镜头拉到过去,InstructPix2Pix第一次让图像编辑听懂“给小狗换成猫”,却发现生成的画面常常自行加戏,要么背景乱动,要么颜色穿帮。

原因在于,“剧组”为了省事,把大语言模型写的剧本(文本指令)和扩散模型拍的镜头(编辑后图像)生硬拼在一起;两者对不上号,剪辑台得到的就是嘈杂、失真的监督信号。

这种噪声剧本问题延续到了SmartEdit、MGIE等后续项目,但大家更倾向于请“大演员”,再塞进一个多模态大模型或额外预训练任务去救场,计算开销一路飙升,却没根治剧本错位的老毛病。

剧情设定:导演要先改剧本,再教演员演对戏

SuperEdit把注意力从堆砌演员(模型)移回了最朴素却最关键的环节:剧本。它做了两步:

剧本勘误(Rectifying Supervision)

先让 GPT‑4o 这位“总编剧”把原图与编辑图放在一起,按“全景‑局部‑细节‑风格”四类镜头语言逐帧比对,重写一份真正描述两张图差异的新剧本。

例如,“把塔变成灯塔”会被拆解成“全景:园林替换为海岸”“局部:多层宝塔换成圆柱形灯塔”等,更贴合画面变化。

错戏对唱(Contrastive Supervision)

有了好剧本,还要让演员分得清“真台词”与“错台词”。SuperEdit让 GPT‑4o 随手写出若干“假指令”(只改动数量、位置或类别的一小句话),再给模型三方对戏:真指令、假指令、目标图像。

通过三元组损失,模型学会让“真台词”生成的噪声更贴近真实,而把“假台词”推远。

就像导演在片场用彩排(正反两条台词)磨演员的台词味,SuperEdit让模型把最细微的文字差别也演到位。

走进片场:技术镜头背后的“导演手册”

把抽象公式翻译成片场隐喻:

扩散模型的时间步=一条镜头的拍摄阶段。早期镜头决定“宏大场景”,中期聚焦“角色动作”,后期补细节和上色,而“风格滤镜”贯穿全程。SuperEdit正是依照这一规律,要求GPT‑4o分层写剧本。

三元组损失=导演在剪辑室播放A/B样片,要求“真剧本样片”比“假剧本样片”更吻合原噪声,从而让演员记住正确演法。

77token限制=片场每句台词长度有限,于是GPT‑4o再做一次“台词精简”保证能塞进CLIP文本编码器。

效果上映:票房与口碑双丰收

“票房”——自动评价指标

在Real‑Edit基准上,SuperEdit 只用4万训练对、1.1B参数,Following/ Preserving/Quality三项分数分别拿到3.59/4.14/4.01,整体3.91,全面超越用120万对数据、14B参数的SmartEdit。

“口碑”——真人影评人打分

15位资深真人评委对同一套测试图像打分:SuperEdit比之前最强的SmartEdit在三大维度分别提升1.8%、16%、14.8%,观众缘不错。

删减片段:消融实验

当只用原始 “噪声剧本”训练时,模型在Following 方面仅 41%/2.45;改用勘误剧本即跳到 62%/3.40,再加对比监督冲到67%/3.59,可见两招都是关键桥段。

训练样本从5k拉到40k,整体分数由3.42线性攀升至3.91,曲线仍未饱和,显示方法对数据利用率极高。

彩蛋:MagicBrush & 低分辨率测试

在MagicBrush基准,SuperEdit无额外模块仍取得与SmartEdit近乎持平甚至更优的CLIP‑T、DINO指标。

此外,即便把训练分辨率降到 256×256,SuperEdit在Real‑Edit基准上仍压过 SmartEdit。

幕后故事:成本、可扩展性与局限

SuperEdit用GPT‑4o勘误4万对图像仅花约800美元,远低于训练13B VLM的资源消耗。作者还验证了用InstructDiffusion的U‑Net预权重可再把三大指标推至71/83/71,显示数据驱动与模型升级互补而非排斥。

不过,局限性还是有的:(1)对多目标、位置关系复杂的场景仍偶有翻车;(2)生成高分辨率极端细节时可能出现风格漂移;(3)依赖GPT‑4o,虽成本低于巨型VLM,但仍受商业API授权限制。

说到底:这项研究好在哪?

如果你只是想让手机里的修图app更听话,SuperEdit的思路意味着未来你一句“把夕阳换成霓虹”,软件真的只会动那一抹天际,而不是顺便给你换了地上的猫。

如果你是AI创作者,SuperEdit告诉你:少即是多。与其盲目上更大的模型,不如先把数据“剧本”写准确,让演员按词就位。

如果你是算法研究者,本片提示:监督信号质量仍是决定模型上限的“第一生产力”。

彩蛋提问留给读者

当模型已经学会分辨“真台词”与“错台词”,下一步会不会是让它即时生成“替补台词”应对实时修改?如果答案是肯定的,那图像编辑的导演椅,或许很快就能真正交到每个普通用户手中。想深入体验,不妨亲自翻阅原论文,你已经有了最顺手的观影指南。

论文地址:https://arxiv.org/abs/2505.02370

来源:码客人生一点号

相关推荐