ICLR'25 惊现[10,10,10,10]满分论文,ControlNet 一作张吕敏新作,Github 5.8k 颗星

摘要:这两天,ICLR 2025 的 discussion phase 临近截止,截止目前,惊现了一篇满分论文,4个审稿人同时打出了10分、10分、10分、10分,这是什么炸裂的存在?!

大数据文摘受权转载自夕小瑶科技说

作者 | 兔子酱

这两天,ICLR 2025 的 discussion phase 临近截止,截止目前,惊现了一篇满分论文,4个审稿人同时打出了10分、10分、10分、10分,这是什么炸裂的存在?!

同时征服了所有的审稿人,都给出了最高档评级strong accept!

这篇论文来自AI绘图界的赛博佛祖——张吕敏,业内称他为敏神,他还是大名顶顶的ControlNet的作者。

而这次获得最高分的论文,是他半年前就在GitHub上开源的一个项目——叫IC-Light。

IC-Light,全称是"Imposing Consistent Light",就是控制图像照明,简而言之,动动嘴就能控制图片的光影效果。

目前,这个项目已经获得5.8K的star,非常火爆。它的牛逼之处就在于,可以随意控制照片主体的光源和背景,将主体、光源、背景三者迅速地融合在一张图片里,非常真实。

目前IC-Light支持两种控制方式:基于文本引导和基于背景图来引导。

对于任意一张照片,通过提示词迅速地改变光影效果;或者指定一张背景照片,重新打光,迅速地生成符合新背景环境光线的照片。

文本引导生成

Prompt: beautiful woman, detAIled face, sunshine, outdoor, warm atmosphere

提示:美女、细致的脸庞、阳光、户外、温馨的氛围 Lighting Preference: Right

照明偏好:右

Prompt: Buddha, detailed face, sci-fi RGB glowing, cyberpunk 提示:佛像、细致的脸部、科幻RGB发光、赛博朋克 Lighting Preference: Left

照明偏好:左

Prompt: beautiful woman, detailed face, light and shadow

提示:美丽的女人,细致的脸庞,光影 Lighting Preference: Left

照明偏好:左

背景引导生成

在 ICLR 投稿之前,这个工作就已经开源了,最初只适配于SD1.5和SDXL,最近作者又推出了V2版本IC-Light V2 ,基于FLUX,具有 16ch VAE 和原生高分辨率。

V2版本细节保留能力远高于SD1.5的版本,具有更好的主体风格一致性。基于SD1.5有时候会对原始图像的风格进行修改,比如,下面这张图的生成效果。

V2的版本在保持主体风格一致性的前提下,生成完美融合光源背景的图片。

目前,作者发布了两种类型的模型:文本条件重新光照模型和背景条件模型。两种类型都需要前景图像作为输入。

Github链接V1版本 :

V2 版本:

敏神还贴心地放出了打光模型的体验地址,但是只能体验第一种文本引导的生成方式,想要什么图需要放在提示词文本里控制。

另外,网上还有大神【Zho】做好了IC-Light 的 Colab 方案,也不需要排队等待,这个Colab把背景图引导的方式也支持上了,背景图片 + 简单提示词,就可以进行重新打光,地址在这里:

https://colab.research.google.com/drive/1-pXSpTH-zNhaAKFmMvh-xj7Zp9781L2f?usp=sharing

这个IC-Light是真的强。

就好比ControlNet的出现直接将Stable Diffusion从AI绘画玩具变成了可控的AI绘画工具一样。

IC-Light代表的是落地级的工具插件,直接把AI绘画工具干到生产力级别的神器!

有了这个神器,大量的AI绘图的场景,比如电商场景里千千万万件商品的拍摄、模特拍照,照相馆里的人物写真摄像,还有室内家居设计,这些需要主体和背景结合的图片内容,都能规模化批量生产。

因为它能够轻易地解决主体、背景、光线的融合衔接问题。

这将是AI绘画变成生产力工具的一块重要拼图。

IC-Light、ControlNet这些项目是真的强,不过,我觉得更强的是他们的作者——张吕敏。

他2021年本科毕业于苏州大学,后来去斯坦福读博。

从大学开始就开始研究AI绘画,大一就发了paper了,本科期间一共发了10篇论文一作,都是AI绘画相关的。

本人非常低调,我去搜了一下,他连Google Scholar账号都没有注册,论文这么高产,大几百上千的citation早就有了。

他的GitHub项目主页是:

动辄一个项目就几K的star,简直就是AI绘图届的顶流。

Paints-UNDO是一个将真实人类绘画行为建模到AI绘画模型中,生成更符合人类审美和创作风格的图像。通过分析人类在绘画过程中的操作,例如画笔的移动、颜色选择等,来学习人类的创作意图。然后,将这些意图融入到 AI 模型的训练中。

另一项出圈的项目是LayerDiffuse,给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG),区别于抠图,它是用模型生成透明图像。

能够十年如一日坚持在AI绘画领域深耕,重点是开源的,这一点非常值得我敬佩。

热爱+坚持+分享,永远是最动人的。

愿你和我都能在热爱的领域发光!

租售GPU算力

特别适合企业级应用

来源:大数据文摘一点号

相关推荐