摘要:“机器人技术的 ChatGPT 时刻即将到来。与大语言模型一样,世界基础模型是推动机器人和自动驾驶汽车开发的基础,但并非所有开发者都拥有自主训练模型所需的专业知识和资源。我们创建 Cosmos 是为了普及物理 AI,让每一位开发者都能接触到通用机器人技术。”当
“机器人技术的 ChatGPT 时刻即将到来。与大语言模型一样,世界基础模型是推动机器人和自动驾驶汽车开发的基础,但并非所有开发者都拥有自主训练模型所需的专业知识和资源。我们创建 Cosmos 是为了普及物理 AI,让每一位开发者都能接触到通用机器人技术。”当地时间 2025 年 1 月 6 日,NVIDIA 创始人兼 CEO 黄仁勋在 CES 2025 上这样表示。会上,黄仁勋宣布推出一款名为 NVIDIA Cosmos 的新平台,其主要面向物理 AI 模型领域的开发者,旨在推动自动驾驶汽车和机器人等物理 AI 系统的发展。
(来源:NVIDIA)
NVIDIA Cosmos 平台是什么?
NVIDIA Cosmos 平台由世界基础模型、高级 tokenizer、护栏和加速视频处理管线等几部分组成。NVIDIA Cosmos 根据 NVIDIA 的可信 AI 原则开发而来,该原则优先考虑隐私、安全、保障、透明和减少不必要的偏见。比如,NVIDIA 为 Cosmos 平台加入了专为减少有害文字和图像而设计的护栏,并为其提供了一个增强文字提示准确性的工具。再比如,使用 NVIDIA API 目录上的 Cosmos 自回归模型和扩散模型生成的视频会带有隐形水印,从而帮助人们识别 AI 生成内容,进而帮助减少错误信息和错误归属的可能性。
NVIDIA Cosmos 平台能干什么?
之所以推出 NVIDIA Cosmos 平台,是因为对于物理 AI 模型来说,其不仅开发成本很高,并且需要大量的真实数据和真实测试,往往动辄需要数 PB(petabytes)的视频数据,而这背后需要数万小时的计算来处理、整理和标记这些数据。而 NVIDIA Cosmos 能在数据整理、数据训练和模型定制上节省成本,这主要得益于它的以下功能:
首先,NVIDIA NeMo Curator 驱动的 NVIDIA AI 和 CUDA® 加速数据处理管线,让开发者能够通过 NVIDIA Blackwell 平台在 14 天内处理、整理和标记 2000 万小时的视频,而如果单纯使用 CPU 则需要 3 年以上时间。
其次,NVIDIA Cosmos Tokenizer 是一种可视化 tokenizer,能将图像和视频转换成 token。相比已有的 tokenizer,NVIDIA Cosmos Tokenizer 的总压缩率提高 8 倍,处理速度提高 12 倍。
再次,NVIDIA NeMo 框架可用于高效的模型训练、模型定制和模型优化。
前面提到,世界基础模型是 NVIDIA Cosmos 平台的组成部分之一,它专门为物理 AI 的研发而构建,旨在实现基于物理学的交互和物体恒存性、以及生成高质量的仿真工业环境和驾驶环境。基于文本&图像&视频等输入组合、以及基于根据机器人传感器或基于运动数据,世界基础模型能够生成基于物理学的视频。世界基础模型还能让开发者生成大量基于物理学的逼真合成数据,进而能够用于训练和评估现有模型。另外,开发者还能通过微调世界基础模型这一方式来构建新的自定义模型。
NVIDIA Cosmos 平台该怎么用?
借助 NVIDIA Cosmos 的开放模型套件,开发者可以按需使用数据集定制自动驾驶汽车旅行视频、机器人在仓库中的移动轨迹等世界基础模型。
在 CES 的主题演讲中,黄仁勋演示了 NVIDIA Cosmos 的使用场景:其一,用于视频搜索和理解:即从视频数据中找到特定的训练场景,例如雪天路况或仓库拥堵等。其二,用于基于物理学的合成数据生成:即使用 NVIDIA Cosmos 模型从 NVIDIA Omniverse 平台上开发的可控 3D 场景中来生成逼真视频。其三,用于物理 AI 模型开发和评估:即在基础模型上构建自定义模型,使用 NVIDIA Cosmos 进行强化学习以便改进模型,或者测试模型在特定仿真场景中的表现。其四,用于预测与“多元宇宙”模拟:使用 NVIDIA Cosmos 和 NVIDIA Omniverse 为 AI 模型生成所有未来可能实现的结果,以便帮助 AI 模型选择最佳和最准确的路径。
开发者在使用 NVIDIA Cosmos 世界基础模型的时候,可以通过 NVIDIA 在 Hugging Face 和 NVIDIA NGC 目录上的开放模型许可证来获得。在不久的将来,NVIDIA Cosmos 世界基础模型将以经过全面优化的 NVIDIA NIM 微服务形式提供给开发者。届时,开发者可以使用 NVIDIA NeMo Curator 加速视频处理,并能使用 NVIDIA NeMo 定制自己的世界模型,随后可以通过 NVIDIA DGX Cloud 来快速、简单地部署这些模型,同时也能获得 NVIDIA AI Enterprise 软件平台提供的企业支持。
Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Foretellix、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber。其中,1X 使用 Cosmos Tokenizer 推出了 1X World Model Challenge 数据集。Hillbot 和 Skild AI 正在使用 Cosmos 加速其通用机器人的开发。Foretellix 将使用 Cosmos 与 NVIDIA Omniverse Sensor RTX API 大规模评估和生成高保真测试场景与训练数据。小鹏汽车将使用 Cosmos 加快其人形机器人的开发。Uber 正在与 NVIDIA 合作,共同加速自动驾驶汽车的发展。
如果是 2024 年是具身智能元年,那么 2025 年其必将迎来更多实际应用,而 NVIDIA Cosmos 则能为开发者的工具箱再添利器,其所为产品研发带来的每一个优化,都将实实在在地体现在用户手中的终端产品上。
来源:DeepTech深科技