摘要:AI赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉效果。即使取得了如此飞跃,仍然存在一个挑战:实现创意掌控。
Blueprint将BlackForest Labs 的FLUX.1-dev(作为一项NVIDIANIM 微服务)、ComfyUI和Blender整合在针对RTXAI PC 优化的预构建工作流中。
AI赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉效果。即使取得了如此飞跃,仍然存在一个挑战:实现创意掌控。
使用文本创建场景变得更容易,不再需要复杂的描述,模型也改进了针对提示词的一致性。但仅通过文字描述构图、拍摄角度、物体摆放这些精细细节已经很不容易了,要修改调整更是难上加难。虽然使用ControlNet(通过更好地控制输出来增强图像生成的工具)的高级工作流提供了解决方案,但其设置复杂,限制了更广泛的使用。
为帮助克服这些挑战并快速获取先进的AI功能,NVIDIA在年初的CES展会上发布了面向RTXPC 的NVIDIA3D 引导生成式AIBlueprint。这个示例工作流包含了全套工具,让你能从头开始生成完全控制构图的图像用户现在就可以体验这个全新的Blueprint。
利用3D控制AI生成的图像
NVIDIA的3D引导生成式AIBlueprint 可控制图像生成,它使用Blender中的3D场景草稿向图像生成器(BlackForest Labs 的FLUX.1-dev)提供深度图,与用户的提示词一起生成所需的图像。
深度图帮助图像模型理解物体应该如何放置。这项技术的优势在于,它不需要高度细节化的物体或高质量纹理,因为它们将被转换为灰度。此外,由于场景是3D的,用户可以轻松移动物体并更改相机角度。
Blueprint的底层是ComfyUI,这是一个功能强大的工具,允许创作者以有趣的方式链接生成式AI模型。例如,用户可以通过ComfyUINode Editor Blender 插件将Blender连接到ComfyUI。此外,用户可以使用NVIDIANIM微服务在GeForceRTX GPU 上部署FLUX.1-dev模型并以最佳性能运行,充分利用NVIDIATensorRT软件开发套件以及FP4和FP8等优化的精度格式。3D引导的生成式AIBlueprint 需要NVIDIAGeForce RTX 4080 及以上GPU。
生成式AI工作流的预构建基础
3D引导的生成式AIBlueprint 包括开始使用高级图像生成工作流所需的一切:Blender、ComfyUI、连接两者的Blender插件、FLUX.1-devNIM 微服务以及运行该微服务所需的ComfyUI节点。对于AI艺术家,还附带了安装程序和详细的部署说明。
该Blueprint采用一种结构化的方式来深入图像生成,提供了可根据特定需求量身定制的工作流。这套方案包含了手把手教程、现成素材和开箱即用的环境配置,让你创作更轻松,效果更惊艳。
对于AI开发者,该Blueprint可以作为构建类似工作流或扩展现有工作流的基础。它附带源代码、示例数据、文档和入门工作示例。
RTXAI 提供支持的实时生成
AIBlueprint 在NVIDIARTX AI PC 和工作站上运行,充分利用了NVIDIABlackwell架构的最新性能突破。
3D引导的生成式AIBlueprint 中包含的FLUX.1-devNIM 微服务经过TensorRT优化,并量化为FP4精度以适用于BlackwellGPU,推理速度比原生PyTorchFP16 提升了一倍以上。
对于使用NVIDIAAda Lovelace 架构GPU的用户,FLUX.1-devNIM 微服务附带FP8精度,同样由TensorRT加速。这些改进使高性能工作流更容易实现,从而能够进行快速迭代和实验。量化还有助于减少模型运行所需的显存。使用FP4量化时,模型体积直接比FP16小了一半还多。
使用RTXAI 进行定制和创建
目前有10个NIM微服务可用于RTX,支持从图像和文本生成到语音AI和计算机视觉的用例,更多Blueprint和服务即将推出。
AIBlueprint 和NIM微服务现已在 推出,为准备在 RTXPC 和工作站上创建、定制和突破生成式AI界限的用户提供了强大的基础。
每周,RTXAI Garage系列博客都会为那些希望详细了解NIM微服务和AIBlueprint 以及在AIPC 和工作站上构建AI智能体、创意工作流、数字人、生产力应用等的用户提供社区驱动的AI创新和内容。
来源:湖北台科技快报