摘要:然而,江湖的规矩,就是用来被打破的。最近,字节跳动智能创作实验室(UXO Team)带着他们的新作USO (Unified Style-Subject Optimized,统一风格-主题优化) 模型走上台前,轻轻一挥手,就化解了这个困扰业界已久的“二元对立”。
在AI图像生成领域,风格驱动和主题驱动的图像生成,一直视为两个脱节的任务:前者优先考虑风格相似性,而后者则坚持主题一致性,导致明显的对立。
然而,江湖的规矩,就是用来被打破的。最近,字节跳动智能创作实验室(UXO Team)带着他们的新作USO (Unified Style-Subject Optimized,统一风格-主题优化) 模型走上台前,轻轻一挥手,就化解了这个困扰业界已久的“二元对立”。
小孩子才做选择,成年人全都要。
“鱼与熊掌”的老大难,是如何被攻克的?
这事儿得从头说起。在过去,AI图像生成的赛道被分成了两个泾渭分明的方向。一边是“风格派”,他们追求就是让AI学会各种艺术风格,比如把一张普通街景照片,变成梵高笔下的《星空》。另一边是“写实派”,他们更关心的是“画得像”,比如你给AI一张你家狗子的照片,要求它在不同的场景里——沙滩上、雪地里、月球上——都能准确画出你家狗子的模样,而不是变成隔壁老王家的哈士奇。
但字节跳动的研究员们偏不信邪。
他们先是下苦功,建了一个前所未有的海量数据集。咱们都知道,AI模型这东西,本质上是个“吃货”,你喂给它什么样的数据,它就长成什么样。为了让模型同时理解“风格”和“主题”这两个概念,团队打造了一个包含约20万个“三元组”的USO数据集。每个三元组都像一个精心设计的教学案例,里面包含三张图:一张是“风格参考图”(比如一幅油画),一张是“内容参考图”(比如一只柯基),还有一张是最终的“风格化目标图”(那只被画成油画风格的柯基)。
这个数据集的构建过程本身就很有创意,他们称之为“主题换取风格”。团队先是把现有的各种主题数据集和图像编辑样本整合到一起,形成一个巨大的“原料池”。然后,他们找来“风格化专家”模型,从目标图像里提炼出纯粹的笔触、色调等风格信息,再用“去风格化专家”把风格化后的图像还原成逼真的主题图像。最后,还请来了基于视觉语言模型(VLM)的“质检员”进行严格筛选,确保每一组数据的风格都够纯正,主题也够清晰。这个数据集里甚至还贴心地准备了“布局保留”和“布局改变”两种情况,让模型学会应对各种复杂的创作需求。
他们设计了一套巧妙的两阶段训练法。这可以说是USO最核心的创新。既然风格和内容老是“打架”,那能不能想办法让它们俩先“分开冷静一下”,各自学好自己的本事,再“体面地合作”呢?
第一阶段叫“风格对齐训练”。这个阶段,模型专心学习什么是“风格”。团队在这里做了一个关键决策:他们抛弃了传统的变分自编码器(VAE),换上了一个更先进的图像编码器来处理风格。打个比方,传统的VAE看风格可能只能看到“颜色很鲜艳”,而新的编码器则能看懂“这是印象派的点彩画法”,能捕捉到更深层次、更抽象的艺术精髓。
第二阶段叫“内容-风格解耦训练”。在模型已经“懂了”风格之后,再把内容信息加进来。内容图像通过一个被“冻结”了的VAE编码器进行处理,确保主题的身份信息不会被干扰。然后,模型就在之前构建好的三元组数据上进行训练,学习如何将一个独立的内容和一个独立的风格优雅地融合在一起,而不是粗暴地叠加。这套流程下来,风格和内容就像两条平行线,在各自的轨道上运行,最后在生成图像的那一刻完美交汇,互不干扰,也就避免了所谓的“跨域泄漏”。
他们还引入了一套风格奖励学习(SRL)范式。如果说前两步是教会了模型基本功,那这一步就是请了个“私教”,进行强化训练。SRL机制会给模型一个明确的奖励信号:只要你在保持主题不变的前提下,把风格模仿得越像,得分就越高。在这种正向激励下,模型会变得越来越擅长在“螺蛳壳里做道场”,在不扭曲内容的前提下,将风格的魅力发挥到极致。有趣的是,这种对风格的极致追求,反过来也让模型对内容边界的把握更加清晰,意外地提升了主题的一致性,实现了“双赢”。
USO到底有多强?
光说不练假把式。为了证明USO到底有多强,字节团队还顺手打造了业界第一个能同时评估风格相似度和主题保真度的“考场”——USO-Bench 基准。
这个考场里的“考卷”设计得相当全面,从三个维度来给模型打分:
考试结果可以说是毫无悬念。在USO-Bench这个公平的舞台上,USO在几乎所有维度上都取得了遥遥领先的成绩,把现有的一众开源模型甩在了身后。
除了榜单上的数字表现,在实际生成的图片效果上,USO的优势更是肉眼可见。
主体/ID驱动生成
风格驱动生成(Lora可以洗洗睡了)
风格+主体驱动生成
无论是在只要求“画得像”的主题驱动任务,还是只要求“画得美”的风格驱动任务,亦或是最考验功力的“既要像又要美”的联合任务中,USO都展现出了“六边形战士”的全面实力。
不光能打,更能走进千家万户
USO的技术内核同样值得玩味。它没有沿用传统多模态模型常用的交叉注意力机制,而是另辟蹊径,把所有输入信息——文字、风格、内容,甚至噪声——串成一个序列,然后用一种叫做“联合自注意力”的机制来处理。
而这项技术的真正价值,在于它为现实世界带来的无限可能。
在创意内容领域,一个故事里的主角可以穿越在水彩、油画、像素等不同风格的世界里,而始终保持着他独一无二的样貌,这对于游戏、动画、漫画的创作来说,简直是天降神器。
在商业设计领域,品牌方可以用它来高效生成风格多变但品牌标识高度统一的营销物料,轻松应对不同平台的审美需求。
USO已全面开源。Apache 2.0许可,鼓励所有人一起把它玩出更多的花样。
github开源:https://github.com/bytedance/USO
huggingface:https://huggingface.co/bytedance-research/USO
免费体验:https://huggingface.co/spaces/bytedance-research/USO
参考资料:
来源:算泥社区