摘要:本文介绍了一种名为“3DIS-FLUX”的方法,该方法可以实现简单而高效的多实例生成,并使用DiT渲染技术进行细节渲染。传统的MIG方法需要每次更新新的适配器以适应更先进的模型,导致资源消耗大。而3DIS方法将MIG分解为两个独立阶段:基于深度的场景构建和使用
本文介绍了一种名为“3DIS-FLUX”的方法,该方法可以实现简单而高效的多实例生成,并使用DiT渲染技术进行细节渲染。传统的MIG方法需要每次更新新的适配器以适应更先进的模型,导致资源消耗大。而3DIS方法将MIG分解为两个独立阶段:基于深度的场景构建和使用广泛预训练的深度控制模型进行细节渲染。3DIS-FLUX是3DIS框架的一个扩展,它集成了FLUX模型以增强渲染能力。实验结果表明,3DIS-FLUX在性能和图像质量方面都优于当前的基于适配器的状态艺术方法。
本文提出的多实例生成(MIG)方法通过分解为两个阶段来实现:首先使用深度图布局模型生成场景深度图,然后使用FLUX模型根据该深度图生成图像。在第二阶段中,我们引入了一个FLUX细节渲染器,以确保每个实例都能准确地呈现其指定属性,并且与全局文本一致。
具体来说,在第一阶段中,我们使用3DIS中的布局到深度模型生成相应的场景深度图。在第二阶段中,我们使用FLUX.1-depth-dev模型从场景深度图生成图像,从而控制图像的布局。为了进一步确保每个实例都具有准确的精细属性,我们在联合注意力过程中引入了FLUX细节渲染器,基于布局信息约束注意力掩模。
本文提出了FLUX细节渲染器,它能够显著提高多个实例的精度。FLUX细节渲染器包括两个方面的改进:
控制图像嵌入的注意力:为了避免属性泄漏,我们将图像嵌入对应于实例i的注意力限制在其所在区域内的图像嵌入上。控制文本嵌入的注意力:由于T5文本编码器缺乏重要的语义信息,因此我们需要对文本嵌入的注意力施加严格的约束,以避免引入错误的语义信息。本文的主要贡献是提出了一种适用于多实例生成的FLUX细节渲染器,可以更精确地生成多个实例并保证它们与其指定属性和全局文本的一致性。这有助于用户更好地控制生成的图像,并满足各种需求。
本文主要介绍了基于深度学习的图像生成方法——3DIS,并与其他训练-free和adapter-based方法进行了比较。该方法通过利用FLUX模型实现深度控制,在不损失图像质量的情况下实现了对实例位置和细节的精确渲染。同时,该方法与现有的adapter方法并不相互排斥,可以组合使用以获得更好的性能。
在实验中,作者采用了COCO-MIG基准测试来评估模型的能力,包括Mean Intersection over Union(MIoU)和Instance Success Ratio(ISR)。实验结果表明,相比于之前的SOTA方法,3DIS不仅具有强大的位置控制能力,还能够准确地呈现每个生成实例的细节。例如,当使用FLUX模型时,成功的实例比例提高了9.9%,并且将3DIS与GLIGEN和MIGC等adapter方法结合使用可以获得更好的性能。
此外,作者还进行了多个ablation study,探究了不同的设计选择对性能的影响。例如,引入Detail Renderer可以显著提高成功的实例比例,而控制每个图像标记只关注其对应的实例描述标记对于成功渲染每个实例至关重要。这些实验结果进一步证明了3DIS的有效性和优越性。
该论文证明了3DIS框架的灵活性,因此可以预期将来将有更多的新型基础模型被整合到其中。由于本文提出的3DIS-FLUX方法取得了很好的效果,未来可能需要进一步研究如何优化这种方法,以便更好地满足用户的需求并扩展其适用范围。来源:宁教授网络空间元宇宙