摘要:如今,品牌及其创意机构承受着巨大的压力,从活动关键视效到电商的包装图等,他们需要大规模地创建和提供高质量、准确的产品图片。以受众为目标的内容,如个性化和本地化的视觉变化,增加了制作的复杂性。
如今,品牌及其创意机构承受着巨大的压力,从活动关键视效到电商的包装图等,他们需要大规模地创建和提供高质量、准确的产品图片。以受众为目标的内容,如个性化和本地化的视觉变化,增加了制作的复杂性。
制作成本、紧迫的时间安排、资源和维护品牌形象都是营销团队为其受众创建更多资产和更具针对性的内容的重复阻碍。
例如,意式特浓咖啡制造商即将推出的产品可能想要针对面向广泛的受众,从居住在城市的年轻专业人士到在乡村享受退休生活的老一代。过去,这需要多个工作流、多个地点、多个团队和多个审查周期来执行,而这往往很难达到,从而限制了营销团队可用于定位的可用内容。
为了大规模地生成高质量、符合品牌定位的内容,创意团队现在可以利用生成式 AI 工作流。将生成式 AI 集成到用于生成准确的视觉资产和制作内容的工具与应用中,可以为内容供应链带来新的可能性和效率。
许多开发者已经在努力将其变为现实。
在本文中,我们将介绍用于精确视觉生成式 AI 的 3D 调节(3D Conditioning for Precise Visual Generative AI )的 NVIDIA Omniverse Blueprint,概述其工作原理及其用途,并了解行业领先者如何考虑该领域的发展。
NVIDIA Omniverse Blueprint 是参考工作流,可让用户轻松实施和构建 3D、仿真和数字孪生应用。
图 1. 使用 NVIDIA Omniverse 3D Conditioning for Precise Visual Generative AI 创建的输出图像示例
模型调节以解锁生成式 AI,实现可扩展和可控的资产创建
如果无法控制产品的视觉输入,将生成式 AI 集成到工作流中创建精确品牌形象时可能会出现问题。如果没有特定的调节,特定的几何体、颜色、徽标和品牌指南被误解或丢失。
模型调节是指为模型提供特定信息或规则,帮助其根据期望做出更好的预测或决策。要调节 LLM,需要提供基于文本的说明、示例、上下文或之前的对话历史记录。对于图像生成器,可以提供文本或示例图像。
但这只能为 AI 模型提供有限的控制。这就是为什么需要 3D 调节。
通过在 3D 环境中设置 Stage,艺术家能够对生成的视觉效果的输出进行出色的创意控制或指导。为终端用户交互构建易于使用的 UI,使非技术团队能够在受控和经过调节的框架中迭代和创建内容,同时保持品牌资产不受 AI 影响。
该 Omniverse Blueprint 采用多模态方法,结合了使用 3D 的核心资产和简单的环境几何体,以及 2D 渲染通道,可快速修复以完成受控场景。用户可以通过蒙版来保持产品数字孪生的完整性,还可以通过更改摄像头角度和缩放 3D 视窗来构图镜头。
为精确视觉生成式 AI 构建经 3D 调节的工作流涉及以下几个关键组件:
品牌核心资产:由艺术家创建并通常由品牌经理和艺术总监批准的最终资产,被视为核心资产。以上面的例子来说,提供一个简单的咖啡机模型。简单、无纹理的 3D 场景: 由 3D 艺术家提供,用于放置核心资产并控制布局和构图。自定义应用程序: 使用基于 Kit 106.2 的 Kit App 模板构建。生成式 AI 微服务和 Kit 扩展程序:为自定义应用添加生成式 AI 功能。在这种情况下,扩散模型(例如 Stable Diffusion)负责修补。解决方案测试:验证集成工作流的功能和性能。对于此工作流,我们专门研究了能够让用户在使用生成 AI 的同时,也充分利用 OpenUSD 进行 3D 应用和工作流开发的微服务。
Omniverse Blueprint 旨在实现可扩展和可定制。以下是可以在工作流中引入的一些其他组件:
大型多模态模型(LMM)+ ComfyUI:快速生成式文本转图像模型,可根据文本提示合成逼真图像。Edify 360 NIM:Shutterstock 提供早期访问预览版,用于生成 360 度高动态范围图像(HDRI)。该模型使用 Shutterstock 的许可创意库在 NVIDIA Edify 上进行训练。Edify 3D NIM:Shutterstock 提供的 3D 资产生成服务,用于场景布置中额外的 3D 对象生成。使用 NVIDIA Edify 和 Shutterstock 许可的创意库进行训练。USD Code:一个语言模型,能够回答OpenUSD知识查询并生成USD Python代码。USD Search:一个AI驱动的搜索工具,使用文本或图像输入来搜索 OpenUSD 数据、3D 模型、图像和资产。在本工作流指南结束后,用户将能够使用 AI 开发自己的自定义应用,以支持并加速创意和营销团队。所有微服务目前均可在 build.nvidia.com 上预览,用户可以在其中调用 API 进行评估。
图 2. NVIDIA Omniverse Blueprint 用于精确视觉生成式 AI 的 3D 调节的架构
利用 NVIDIA Omniverse Blueprint 构建营销生态系统
独立软件供应商(ISV)和生产服务机构的开发者正在正在构建下一代内容创作解决方案,这些解决方案融合了可控的生成式 AI,并基于 OpenUSD 构建。
例如 Accenture Song 、 GRIP 、 Monks 、 WPP 和 Collective World 正在采用 Omniverse Blueprint 来加速开发。
开发可扩展的 AI 解决方案,以创建符合品牌的资产
此蓝图提供了如何构建可控的生成式 AI 应用的架构示例。用户现在可以充分利用其应用:
多模态 AI 生成的最终帧活动资产为关键视觉快速构思概念与创意批量处理提示输入,从数据库中预定义的文本提示生成可能的数百种视觉输出实施该蓝图能够获得以下优势:
加快上市时间:可显著缩短创建高分辨率品牌资产所需的时间,从而加快产品上市速度。轻松实现本地化:支持即时创建本地化图像,以帮助品牌满足不同市场的文化趋势或要求。提高生产力:使用 3D 数据的易用工具可以降低传统上与高保真资产创建相关的技术技能要求。开始使用
本文介绍了用于精确视觉生成式 AI 的 3D 调节的 NVIDIA Omniverse Blueprint,并展示了如何通过构建生成式 AI 应用程序来生成符合品牌的视觉资产和内容制作。
通过 NVIDIA API Catalog 中的交互式演示进行 3D 调节 ,实现精确的视觉生成式 AI 蓝图:https://build.nvidia.com/nvidia/conditioning-for-precise-visual-generative-aiUSD Search API 的 GA 版本:包括可下载的 Helm 图表,用于自行部署以便在自己的基础设施上与自己的数据进行交互:https://build.nvidia.com/nvidia/usdsearch参考架构示例工作流,以及实施蓝图的指南:https://resources.nvidia.com/en-us-omniverse-product-configurator/blueprint-3d-conditioning/NVIDIA-NIM-Agent-Blueprints/ GitHub 库,包括工作流程指南(用于 3D 调整):https://github.com/tree/main来源:NVIDIA英伟达中国