英伟达开源自适应多模态「世界生成」模型！开启机器人、自动驾驶训练革命

　　新智元报道

　　编辑：定慧

　　Nvidia 刚刚发布了「世界生成」模型 Cosmos-Transfer1，可以根据多种模态的空间控制输入（如分割、深度和边缘）生成世界模拟，使得世界生成具有高度可控性。开发者使用模型能够创建高度逼真的模拟环境，用于训练机器人和自动驾驶车辆。

　　Nvidia 带着最新「黑科技」模型 Cosmos-Transfer1 震撼登场，可以创建高度逼真的模拟环境，反向生成「真实世界」！

　　Cosmos-Transfer1，是一种自适应多模态世界生成模型。可以根据多种模态的空间控制输入（如分割、深度和边缘）生成真实世界模拟。

　　注意！右边的场景并非「真实场景」，而通过 HD Map 高清地图和 Lidar 雷达图实时「生成」的！

　　这种生成能力给未来数字世界带来太多想象力和可能性！

　　也有望解决物理 AI 开发中的一个长期挑战：缩小模拟训练环境与实际应用之间的差距。

　　真实物理世界就是以多种模态被感知的，比如上图中的四个模态：RGB Camera、Lidar 雷达图、Depth 深度图和 HD Map 高清地图。

　　Cosmos Transfer 使得高度可控的「世界生成」成为可能，并在各种世界到世界的转换用例中找到应用，包括 Sim2Real（虚拟模拟世界向现实世界转换）。

　　Cosmos Transfer 强大的「世界生成」能力

　　首先通过基于真实物理的引擎，如 Nvidia Omniverse、Genesis 等，生成遵循现实物理规律的模拟视频数据。

　　通过 Cosmos Transfer 来提升模拟数据的真实性和多样性。

　　Cosmos Transfer 不仅可以通过单一模态控制生成，也允许在不同的空间位置对不同的条件输入进行不同的加权。

　　单一模态控制生成

　　Cosmos Transfer 通过单一模态可以生成逼真的现实场景。

　　下图展示了通过输入 Edge 边缘图、Depth 深度图、Segmentation 分块图来生成诸如自行车维修车间、自动驾驶场景和真实机械臂场景。

　　下图展示了通过输入 Blur Visual 模糊场景图、HD Map 高清地图、Lidar 雷达图来生成诸如机械臂操作、自动驾驶场景。

　　多模态控制生成

　　在 Cosmos-Transfer1 模型设计中，空间条件方案是自适应和可定制的。它允许在不同的空间位置对不同的条件输入进行不同的加权。

　　通过输入 HD Map 和 Lidar 雷达图，可以生成应用于自动驾驶训练的真实视频。

　　在多模态的基础上，Cosmos Transfer1 还引入了 Spatiotemporal Control Maps 时空控制权重图，控制权重图在黑色像素区域为 0.0，在白色区域为 0.5，所以在右侧生成的视频中，权重高的部分效果更加明显。

　　一种输入，多种可能

　　除了可以单模态和多模态控制生成视频，Cosmos Transfer1 也能生成多种现实风格的内容。

　　比如下图输入高清地图 HD Map，可以生成 5 种不同风格的视频：Night 夜景、Foggy 大雾天气、Daytime 白天、Snow 雪天和 Night，Rainy 夜晚下雨天。

　　输入 Lidar 雷达图，同样可以生成 5 种不同风格的视频内容。

　　风格变换

　　同时，Cosmos Transfer 可以将生成的视频内容进行风格变换。

　　对生成的视频风格可变换为 Modern 现代风格、Simplistic 简约风和 Warm 风格。

　　以下是 Modern 现代风格、Bakery 风和 Sci-Fi 科幻风格。

　　机械臂的模拟视频可生成 Factory 工厂风格、Construction Site 建筑场景风格和 Living Room 起居风等。

　　不论是单一模态、多模态还是生成各种风格的视频，Cosmos Transfer 都表现出不俗的能力。

　　「世界生成器」Cosmos Transfer1 技术路线

　　多模态可控世界生成是指基于分割、深度和边缘等多模态视频输入生成世界模拟视频的问题。

　　Cosmos-Transfer1 是一个具有自适应多模态控制的世界生成器。它包含多个控制分支，用于从不同的模态输入（如分割、深度和边缘）中提取控制信息。

　　应用时空控制图w={w1,w2,…，wN}来加权由控制分支计算出的输出，然后再将其反馈到主生成分支。

　　时空控制图使模型能够利用不同区域中最相关的模态以获得最佳输出质量。

　　Cosmos-Transfer1 训练成果展示

　　Nvidia 第一个 Cosmos-Transfer1 的实现被称为 Cosmos-Transfer1-7B。

　　使用 1024 个 NVIDIA H100 GPU 对每个控制分支进行 2 到 4 周的训练，具体时间取决于模态。

　　以上展示使用相同提示在各个单独模态（Vis、Edge、Depth、Seg）设置下，Cosmos-Transfer1-7B 的生成视频效果。

Cosmos-Tr ansfer1-7B [Vis] 在保持颜色和整体构图的同时，改变了纹理细节。
Cosmos-Transfer1-7B [Edge]在改变颜色的同时保持了物体边界。
Cosmos-Transfer1-7B [Depth]保持了场景几何结构。
Cosmos-Transfer1-7B [Seg]保持了场景语义。

　　Cosmos-Transfer1-7B-Sample-AV 是特别为自动驾驶设计的模型。

Cosmos-Transfer1-7B-Sample-AV [HDMap] 保留了驾驶场景的原始道路布局。
Cosmos-Transfer1-7B-Sample-AV [LiDAR] 保留了输入的语义细节。

　　最后，Nvidia 还训练了一个 Upscale ControlNet，将生成的视频从 720p 提升到 4k 分辨率。

　　在下图中展示了 4K Upscaler 的例子，4K Upscaler 版本称为 Cosmos-Transfer1-7B-4KUpscaler。

　　Cosmos-Transfer1-7B-4KUpscaler 将视频从 720p 提升到 4k 分辨率！

　　效果评估

　　为了评估 Cosmos-Transfer1 的特性，Nvidia 精心策划了 TransferBench——一个包含 600 个示例的评估数据集。

　　首先是单模态和多模态的对比。

　　对各种 Cosmos-Transfer1 配置在 TransferBench 上的定量评估，考虑所有模态的模型获得了最高的 Quality Score。

　　其次，对不同模式（Vis、Edge、Depth 和 Seg）的考虑不同的权重进行研究。

　　控制权重在黑色像素区域为 0.0 ，在白色区域为 0.5 。

　　注意到，虽然标题大致指定了一个自行车修理店的场景，但由于这些像素受到 Vis 和 Edge 的控制，蓝色衬衫上的白色标志和男子的肤色保持不变。

　　另一方面，对于由 Depth 和分割控制的背景，物体在场景中的位置保持一致，但其颜色和纹理被随机化（例如红色工具箱、黄色三脚架、白色修理架）。模型还在右侧墙上添加了一个新的工具架。

　　另一个例子是 Cosmos-Transfer1 在机器人数据生成中的示例结果。

　　左列显示由 NVIDIA Lab 生成的基于物理引擎的虚拟输入视频，而右边三列则展示了使用不同提示词在单模态和多模态控制下的 Cosmos-Transfer1-7B 生成结果。

　　Nivdia Cosmos 平台

　　NVIDIA Cosmos 是一个以开发者为先的世界基础模型平台，旨在帮助物理人工智能开发者更快更好地构建他们的物理人工智能系统。Cosmos 包含：

预训练模型（可通过 Hugging Face 获取），这些模型在 NVIDIA 开放模型许可下允许免费商业使用。
在 Apache 2 许可下的训练脚本，用于对各种下游物理 AI 应用的模型进行后训练。

　　Cosmos-Transfer1 模型可通过 Hugging Face 获取。

　　参考资料：

　　https://github.com/nvidia-cosmos/cosmos-transfer1

　　https://x.com/_akhaliq/status/1902187161841000938

　　https://huggingface.co/papers/2503.14492

作者：itwriter
来源：互联网
日期：2025-03-24
浏览 (2466)