摘要
2026年5月31日,NVIDIA在GTC台北大会暨COMPUTEX 2026上正式发布了Cosmos 3——全球首个开源的物理AI全能基础模型(Omnimodel)。这款模型基于创新的Mixture-of-Transformers(MoT)架构,将视觉语言推理、世界模拟和机器人动作生成三大能力统一在单一模型中,使用20万亿token的多模态数据进行训练,包含近10亿张图像、4亿个真实和合成视频、环境音频、文本以及来自人类和机器人的动作数据。NVIDIA同时发布了"Super"和"Nano"两个版本,并成立了包括Agile Robots、Black Forest Labs和Runway在内的合作联盟。这标志着NVIDIA从芯片公司向物理AI平台公司的战略转型进入实质性阶段。
Cosmos 3标志着NVIDIA从芯片公司向物理AI平台公司的战略转型
事件背景
物理AI的"ChatGPT时刻"
自2023年大语言模型爆发以来,AI行业一直在追问一个问题:什么时候AI能真正理解并操控物理世界? 语言模型能写代码、做翻译、聊天,但让一个机器人在陌生的厨房里倒一杯水,依然是极其困难的任务。
物理AI(Physical AI)是指能够感知、理解并在真实物理世界中自主行动的人工智能系统。这涵盖了机器人、自动驾驶汽车、智能工厂、智慧城市等应用场景。与纯数字AI不同,物理AI需要理解物体的物理属性(重量、摩擦力、弹性)、预测动态场景的演变(行人突然冲出、物体滑落),并生成精确的机械控制指令(关节角度、夹爪力度、运动轨迹)。
NVIDIA的战略布局
NVIDIA在物理AI领域的布局已有数年。2024年发布Isaac机器人平台,2025年初推出第一代Cosmos世界模型,但此前的Cosmos版本将世界生成、物理理解和场景控制分散在不同模型和工作流中。Cosmos 3的关键突破在于——将所有能力统一到一个模型中。
正如NVIDIA创始人兼CEO黄仁勋在GTC台北演讲中所说:“Cosmos 3是物理AI的’基础模型’,就像GPT之于自然语言处理。我们要让开发者能够更快地构建自主系统。”
核心技术解析
技术架构:Mixture-of-Transformers双塔设计
Cosmos 3最核心的技术创新是其Mixture-of-Transformers(MoT)双塔架构:
graph TD
A["多模态输入<br/>文本/图像/视频/音频/动作"] --> B["Reasoner Tower<br/>视觉语言模型(VLM)"]
B -->|理解场景上下文| C["Generator Tower<br/>扩散模型生成器"]
C --> D["视频生成"]
C --> E["动作序列生成"]
C --> F["场景描述生成"]
C --> G["预测场景变化"]
style B fill:#4A90D9,color:#fff
style C fill:#7B68EE,color:#fff
Reasoner Tower(推理塔):这是一个视觉语言模型(VLM),负责解读多模态观测数据——图像、视频、文本。它使用自回归架构来理解输入内容,分析运动、物体交互和其他物理上下文。这相当于模型的"大脑",在任何生成操作之前先"理解"世界。
Generator Tower(生成塔):基于推理塔的理解,使用扩散过程生成物理感知的视频和动作输出。推理塔可以独立运行,但生成塔在激活时会同时调用两个塔,确保生成结果具有物理合理性。
这种架构的最大优势在于——一个模型同时完成推理和生成任务,消除了多模型编排的复杂性。
关键创新点
1. 原生动作数据生成(Native Action Generation)
Cosmos 3不仅能生成图像和视频,还能直接输出数值化的动作数据:关节角度、夹爪位置、轨迹点等,精确描述机器人应该如何移动来完成任务。这是此前任何基础模型都不具备的能力。
2. 20万亿token多模态训练数据
训练数据规模令人瞩目:
- 近10亿张图像
- 4亿个真实和合成视频
- 环境音频数据
- 文本描述
- 来自人类示范和机器人遥操作的动作数据
3. 两个版本覆盖不同场景
| 版本 | 参数量 | 目标场景 | 部署要求 |
|---|---|---|---|
| Cosmos 3 Super | 大规模 | 高物理精度任务(机器人训练、自动驾驶) | 数据中心级算力 |
| Cosmos 3 Nano | 16B | 实时推理、工作站部署 | NVIDIA RTX PRO 6000 GPU |
4. 完全开源
NVIDIA采用Linux Foundation的OpenMDW 1.1许可证发布Cosmos 3,包括模型权重、训练脚本、部署工具和数据集全部开源。开发者可以在GitHub上获取代码,在Hugging Face上下载模型。
5. 后训练适配框架
Cosmos 3提供了完善的后训练(post-training)脚本,开发者可以针对特定机器人形态(Embodiment)、摄像头配置、工作环境或任务进行微调。NVIDIA的TAO 7工具套件提供了编码代理和自然语言提示的微调能力。
性能评测
根据NVIDIA官方技术报告和合作伙伴反馈:
- 机器人操控:Agile Robots使用Cosmos 3 Nano后训练的Policy模型在RoboLab(模拟环境语言引导任务测试)和RoboArena(真实DROID机器人环境对比)中均取得领先
- 视频生成:在自动驾驶和仓储安全场景中,生成的合成视频具有高度物理一致性
- 推理能力:作为VLM使用时,在物体检测、场景理解和密集描述方面表现出色
- 推理效率:Nano版本可在RTX PRO 6000 GPU上实现实时推理
Cosmos 3 Nano版本可在工作站级硬件上实现实时推理,降低物理AI开发门槛
行业影响
对市场的影响
Cosmos 3的发布对物理AI市场产生了多层面的冲击:
1. 降低物理AI开发门槛 此前,训练机器人策略模型需要大量真实世界数据,采集成本极高且难以规模化。Cosmos 3通过生成合成训练数据,使开发者能够"无限扩展"训练场景,显著降低数据获取成本。
2. 从芯片公司到平台公司的转型 NVIDIA正在复制其在GPU生态中的成功模式——不仅提供硬件,还提供从模型到工具链的完整软件栈。Cosmos 3 + Isaac平台 + Vera Rubin硬件,构成了物理AI的端到端解决方案。
3. 开源策略挤压竞争对手 通过完全开源,NVIDIA确保开发者生态围绕Cosmos构建,这对Google DeepMind的RT-2、Tesla的Optimus内部系统等闭源方案形成压力。
对开发者的意义
机遇:
- 首次获得开源的物理AI基础模型,可以在其基础上构建应用
- 后训练框架允许针对特定场景快速适配
- NIM微服务提供优化的部署方案
- 丰富的cookbook和教程降低入门门槛
挑战:
- 即使Nano版本也需要RTX PRO 6000级别GPU,算力成本不低
- 物理AI的评估标准尚不成熟,难以量化模型性能
- 安全考量:生成的合成数据可能存在物理不准确性
商业化前景
graph LR
A["Cosmos 3 基础模型"] --> B["机器人操控"]
A --> C["自动驾驶"]
A --> D["智慧城市"]
A --> E["工业安全"]
A --> F["手术训练"]
B --> B1["Agile Robots"]
C --> C1["Waymo/Tesla"]
D --> D1["交通监控"]
E --> E1["仓储安全"]
F --> F1["合成手术视频"]
NVIDIA已经组建了初始合作联盟,包括Agile Robots(人形机器人)、Black Forest Labs(AI图像生成)和Runway(AI视频工具)。更值得关注的是,NVIDIA的GEAR团队正在使用Cosmos 3开发视频-动作模型,帮助具身智能体在游戏、模拟和真实机器人环境中学习推理、移动和行动。
实际体验
使用场景演示
场景1:机器人Pick-and-Place 开发者可以使用Cosmos 3生成大量"抓取-放置"任务的合成数据,包括不同物体形状、光照条件和桌面布局的变体。Agile Robots已经使用这一方法为其Thor 3人形机器人和FR3协作臂生成多样化的任务轨迹。
场景2:自动驾驶仿真 Cosmos 3 Super可以从文本描述或视频输入生成多种驾驶场景的未来预测,包括行人突然横穿、前车急刹、恶劣天气等边界情况。这对于自动驾驶系统的安全验证至关重要。
场景3:仓储安全监控 在工厂和仓库中,Cosmos 3可以作为视觉AI代理的"大脑",实时推理叉车行驶路径、预测碰撞风险、生成密集场景描述和安全告警。
优势与不足
优势:
- 首个将推理、生成和动作统一在单一模型中的开源方案
- 原生动作数据生成能力,直接输出机器人控制指令
- 完全开源,模型权重+训练脚本+工具链全部可用
- 20万亿token训练数据带来的丰富物理世界理解
- Nano版本支持工作站级实时推理
不足:
- 硬件要求仍然较高,Nano也需要RTX PRO 6000
- 生成动作数据的精度在复杂灵巧操作中仍需提升
- 开源许可证虽然宽松,但Linux Foundation的OpenMDW 1.1仍是新许可证,行业认知度有限
- 缺乏与闭源竞品(如Google RT-2)的直接对比基准
总结与展望
Cosmos 3是物理AI领域的一个里程碑式发布。它第一次让开发者社区获得了一个开源的、全能的物理AI基础模型,将视觉推理、世界模拟和动作生成统一在一个架构中。
从战略角度看,这是NVIDIA从"卖铲子"(GPU)向"建生态"(平台+模型+工具)转型的关键一步。如果Cosmos生态能够像CUDA生态一样繁荣,NVIDIA将在物理AI时代占据与数字AI时代同样核心甚至更重要的位置。
展望未来,我们可以期待:
- Edge版本即将推出,支持边缘设备本地运行
- 更多合作伙伴加入生态,推动模型在更多垂直领域的应用
- 后续版本可能在动作精度和多机器人协同方面有显著提升
- 开源社区的贡献将进一步丰富模型能力和训练数据
物理AI的"基础模型"时代,正式开始了。
参考来源: