<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>COMPUTEX 2026 on 有鱼智界 | 森林有鱼</title>
        <link>https://www.iyouyu.tech/tags/computex-2026/</link>
        <description>Recent content in COMPUTEX 2026 on 有鱼智界 | 森林有鱼</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Fri, 05 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://www.iyouyu.tech/tags/computex-2026/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>NVIDIA Cosmos 3深度评测：首个开源物理AI全能模型，机器人的&#39;大脑&#39;终于来了？</title>
        <link>https://www.iyouyu.tech/p/nvidia-cosmos-3-physical-ai/</link>
        <pubDate>Fri, 05 Jun 2026 00:00:00 +0000</pubDate>
        
        <guid>https://www.iyouyu.tech/p/nvidia-cosmos-3-physical-ai/</guid>
        <description>&lt;img src="https://images.unsplash.com/photo-1591799264318-7e6ef8ddb7ea?w=800&amp;h=600&amp;fit=crop" alt="Featured image of post NVIDIA Cosmos 3深度评测：首个开源物理AI全能模型，机器人的&#39;大脑&#39;终于来了？" /&gt;&lt;h2 id=&#34;摘要&#34;&gt;摘要
&lt;/h2&gt;&lt;p&gt;2026年5月31日，NVIDIA在GTC台北大会暨COMPUTEX 2026上正式发布了&lt;strong&gt;Cosmos 3&lt;/strong&gt;——全球首个开源的&lt;strong&gt;物理AI全能基础模型（Omnimodel）&lt;/strong&gt;。这款模型基于创新的&lt;strong&gt;Mixture-of-Transformers（MoT）架构&lt;/strong&gt;，将视觉语言推理、世界模拟和机器人动作生成三大能力统一在单一模型中，使用&lt;strong&gt;20万亿token&lt;/strong&gt;的多模态数据进行训练，包含近10亿张图像、4亿个真实和合成视频、环境音频、文本以及来自人类和机器人的动作数据。NVIDIA同时发布了&amp;quot;Super&amp;quot;和&amp;quot;Nano&amp;quot;两个版本，并成立了包括Agile Robots、Black Forest Labs和Runway在内的合作联盟。这标志着NVIDIA从芯片公司向&lt;strong&gt;物理AI平台公司&lt;/strong&gt;的战略转型进入实质性阶段。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://images.unsplash.com/photo-1531297484001-80022131f5a1?w=800&amp;amp;h=500&amp;amp;fit=crop&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;电路板与芯片特写&#34;
	
	
&gt;
&lt;em&gt;Cosmos 3标志着NVIDIA从芯片公司向物理AI平台公司的战略转型&lt;/em&gt;&lt;/p&gt;
&lt;h2 id=&#34;事件背景&#34;&gt;事件背景
&lt;/h2&gt;&lt;h3 id=&#34;物理ai的chatgpt时刻&#34;&gt;物理AI的&amp;quot;ChatGPT时刻&amp;quot;
&lt;/h3&gt;&lt;p&gt;自2023年大语言模型爆发以来，AI行业一直在追问一个问题：&lt;strong&gt;什么时候AI能真正理解并操控物理世界？&lt;/strong&gt; 语言模型能写代码、做翻译、聊天，但让一个机器人在陌生的厨房里倒一杯水，依然是极其困难的任务。&lt;/p&gt;
&lt;p&gt;物理AI（Physical AI）是指能够感知、理解并在真实物理世界中自主行动的人工智能系统。这涵盖了机器人、自动驾驶汽车、智能工厂、智慧城市等应用场景。与纯数字AI不同，物理AI需要理解物体的物理属性（重量、摩擦力、弹性）、预测动态场景的演变（行人突然冲出、物体滑落），并生成精确的机械控制指令（关节角度、夹爪力度、运动轨迹）。&lt;/p&gt;
&lt;h3 id=&#34;nvidia的战略布局&#34;&gt;NVIDIA的战略布局
&lt;/h3&gt;&lt;p&gt;NVIDIA在物理AI领域的布局已有数年。&lt;strong&gt;2024年&lt;/strong&gt;发布Isaac机器人平台，&lt;strong&gt;2025年初&lt;/strong&gt;推出第一代Cosmos世界模型，但此前的Cosmos版本将世界生成、物理理解和场景控制分散在不同模型和工作流中。Cosmos 3的关键突破在于——&lt;strong&gt;将所有能力统一到一个模型中&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;正如NVIDIA创始人兼CEO&lt;strong&gt;黄仁勋&lt;/strong&gt;在GTC台北演讲中所说：&amp;ldquo;Cosmos 3是物理AI的&amp;rsquo;基础模型&amp;rsquo;，就像GPT之于自然语言处理。我们要让开发者能够更快地构建自主系统。&amp;rdquo;&lt;/p&gt;
&lt;h2 id=&#34;核心技术解析&#34;&gt;核心技术解析
&lt;/h2&gt;&lt;h3 id=&#34;技术架构mixture-of-transformers双塔设计&#34;&gt;技术架构：Mixture-of-Transformers双塔设计
&lt;/h3&gt;&lt;p&gt;Cosmos 3最核心的技术创新是其&lt;strong&gt;Mixture-of-Transformers（MoT）双塔架构&lt;/strong&gt;：&lt;/p&gt;
&lt;pre class=&#34;mermaid&#34;&gt;
  graph TD
    A[&amp;#34;多模态输入&amp;lt;br/&amp;gt;文本/图像/视频/音频/动作&amp;#34;] --&amp;gt; B[&amp;#34;Reasoner Tower&amp;lt;br/&amp;gt;视觉语言模型（VLM）&amp;#34;]
    B --&amp;gt;|理解场景上下文| C[&amp;#34;Generator Tower&amp;lt;br/&amp;gt;扩散模型生成器&amp;#34;]
    C --&amp;gt; D[&amp;#34;视频生成&amp;#34;]
    C --&amp;gt; E[&amp;#34;动作序列生成&amp;#34;]
    C --&amp;gt; F[&amp;#34;场景描述生成&amp;#34;]
    C --&amp;gt; G[&amp;#34;预测场景变化&amp;#34;]
    
    style B fill:#4A90D9,color:#fff
    style C fill:#7B68EE,color:#fff
&lt;/pre&gt;

&lt;p&gt;&lt;strong&gt;Reasoner Tower（推理塔）&lt;/strong&gt;：这是一个视觉语言模型（VLM），负责解读多模态观测数据——图像、视频、文本。它使用自回归架构来理解输入内容，分析运动、物体交互和其他物理上下文。这相当于模型的&amp;quot;大脑&amp;quot;，在任何生成操作之前先&amp;quot;理解&amp;quot;世界。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Generator Tower（生成塔）&lt;/strong&gt;：基于推理塔的理解，使用扩散过程生成物理感知的视频和动作输出。推理塔可以独立运行，但生成塔在激活时会同时调用两个塔，确保生成结果具有物理合理性。&lt;/p&gt;
&lt;p&gt;这种架构的最大优势在于——&lt;strong&gt;一个模型同时完成推理和生成任务&lt;/strong&gt;，消除了多模型编排的复杂性。&lt;/p&gt;
&lt;h3 id=&#34;关键创新点&#34;&gt;关键创新点
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;1. 原生动作数据生成（Native Action Generation）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Cosmos 3不仅能生成图像和视频，还能直接输出&lt;strong&gt;数值化的动作数据&lt;/strong&gt;：关节角度、夹爪位置、轨迹点等，精确描述机器人应该如何移动来完成任务。这是此前任何基础模型都不具备的能力。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;2. 20万亿token多模态训练数据&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;训练数据规模令人瞩目：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;近&lt;strong&gt;10亿张&lt;/strong&gt;图像&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;4亿个&lt;/strong&gt;真实和合成视频&lt;/li&gt;
&lt;li&gt;环境音频数据&lt;/li&gt;
&lt;li&gt;文本描述&lt;/li&gt;
&lt;li&gt;来自人类示范和机器人遥操作的&lt;strong&gt;动作数据&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;3. 两个版本覆盖不同场景&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本&lt;/th&gt;
          &lt;th&gt;参数量&lt;/th&gt;
          &lt;th&gt;目标场景&lt;/th&gt;
          &lt;th&gt;部署要求&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Cosmos 3 Super&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;大规模&lt;/td&gt;
          &lt;td&gt;高物理精度任务（机器人训练、自动驾驶）&lt;/td&gt;
          &lt;td&gt;数据中心级算力&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Cosmos 3 Nano&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;16B&lt;/td&gt;
          &lt;td&gt;实时推理、工作站部署&lt;/td&gt;
          &lt;td&gt;NVIDIA RTX PRO 6000 GPU&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;4. 完全开源&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;NVIDIA采用&lt;strong&gt;Linux Foundation的OpenMDW 1.1许可证&lt;/strong&gt;发布Cosmos 3，包括模型权重、训练脚本、部署工具和数据集全部开源。开发者可以在GitHub上获取代码，在Hugging Face上下载模型。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;5. 后训练适配框架&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Cosmos 3提供了完善的后训练（post-training）脚本，开发者可以针对特定机器人形态（Embodiment）、摄像头配置、工作环境或任务进行微调。NVIDIA的TAO 7工具套件提供了编码代理和自然语言提示的微调能力。&lt;/p&gt;
&lt;h3 id=&#34;性能评测&#34;&gt;性能评测
&lt;/h3&gt;&lt;p&gt;根据NVIDIA官方技术报告和合作伙伴反馈：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;机器人操控&lt;/strong&gt;：Agile Robots使用Cosmos 3 Nano后训练的Policy模型在&lt;strong&gt;RoboLab&lt;/strong&gt;（模拟环境语言引导任务测试）和&lt;strong&gt;RoboArena&lt;/strong&gt;（真实DROID机器人环境对比）中均&lt;strong&gt;取得领先&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;视频生成&lt;/strong&gt;：在自动驾驶和仓储安全场景中，生成的合成视频具有高度物理一致性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;推理能力&lt;/strong&gt;：作为VLM使用时，在物体检测、场景理解和密集描述方面表现出色&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;推理效率&lt;/strong&gt;：Nano版本可在RTX PRO 6000 GPU上实现实时推理&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&#34;https://images.unsplash.com/photo-1581091226825-a6a2a5aee158?w=800&amp;amp;h=500&amp;amp;fit=crop&#34;
	
	
	
	loading=&#34;lazy&#34;
	
		alt=&#34;工作站编程环境&#34;
	
	
&gt;
&lt;em&gt;Cosmos 3 Nano版本可在工作站级硬件上实现实时推理，降低物理AI开发门槛&lt;/em&gt;&lt;/p&gt;
&lt;h2 id=&#34;行业影响&#34;&gt;行业影响
&lt;/h2&gt;&lt;h3 id=&#34;对市场的影响&#34;&gt;对市场的影响
&lt;/h3&gt;&lt;p&gt;Cosmos 3的发布对物理AI市场产生了多层面的冲击：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;1. 降低物理AI开发门槛&lt;/strong&gt;
此前，训练机器人策略模型需要大量真实世界数据，采集成本极高且难以规模化。Cosmos 3通过生成合成训练数据，使开发者能够&amp;quot;无限扩展&amp;quot;训练场景，显著降低数据获取成本。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;2. 从芯片公司到平台公司的转型&lt;/strong&gt;
NVIDIA正在复制其在GPU生态中的成功模式——不仅提供硬件，还提供从模型到工具链的完整软件栈。Cosmos 3 + Isaac平台 + Vera Rubin硬件，构成了物理AI的端到端解决方案。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;3. 开源策略挤压竞争对手&lt;/strong&gt;
通过完全开源，NVIDIA确保开发者生态围绕Cosmos构建，这对Google DeepMind的RT-2、Tesla的Optimus内部系统等闭源方案形成压力。&lt;/p&gt;
&lt;h3 id=&#34;对开发者的意义&#34;&gt;对开发者的意义
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;机遇：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;首次获得开源的物理AI基础模型，可以在其基础上构建应用&lt;/li&gt;
&lt;li&gt;后训练框架允许针对特定场景快速适配&lt;/li&gt;
&lt;li&gt;NIM微服务提供优化的部署方案&lt;/li&gt;
&lt;li&gt;丰富的cookbook和教程降低入门门槛&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;挑战：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;即使Nano版本也需要RTX PRO 6000级别GPU，算力成本不低&lt;/li&gt;
&lt;li&gt;物理AI的评估标准尚不成熟，难以量化模型性能&lt;/li&gt;
&lt;li&gt;安全考量：生成的合成数据可能存在物理不准确性&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;商业化前景&#34;&gt;商业化前景
&lt;/h3&gt;&lt;pre class=&#34;mermaid&#34;&gt;
  graph LR
    A[&amp;#34;Cosmos 3 基础模型&amp;#34;] --&amp;gt; B[&amp;#34;机器人操控&amp;#34;]
    A --&amp;gt; C[&amp;#34;自动驾驶&amp;#34;]
    A --&amp;gt; D[&amp;#34;智慧城市&amp;#34;]
    A --&amp;gt; E[&amp;#34;工业安全&amp;#34;]
    A --&amp;gt; F[&amp;#34;手术训练&amp;#34;]
    
    B --&amp;gt; B1[&amp;#34;Agile Robots&amp;#34;]
    C --&amp;gt; C1[&amp;#34;Waymo/Tesla&amp;#34;]
    D --&amp;gt; D1[&amp;#34;交通监控&amp;#34;]
    E --&amp;gt; E1[&amp;#34;仓储安全&amp;#34;]
    F --&amp;gt; F1[&amp;#34;合成手术视频&amp;#34;]
&lt;/pre&gt;

&lt;p&gt;NVIDIA已经组建了初始合作联盟，包括&lt;strong&gt;Agile Robots&lt;/strong&gt;（人形机器人）、&lt;strong&gt;Black Forest Labs&lt;/strong&gt;（AI图像生成）和&lt;strong&gt;Runway&lt;/strong&gt;（AI视频工具）。更值得关注的是，NVIDIA的GEAR团队正在使用Cosmos 3开发视频-动作模型，帮助具身智能体在游戏、模拟和真实机器人环境中学习推理、移动和行动。&lt;/p&gt;
&lt;h2 id=&#34;实际体验&#34;&gt;实际体验
&lt;/h2&gt;&lt;h3 id=&#34;使用场景演示&#34;&gt;使用场景演示
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;场景1：机器人Pick-and-Place&lt;/strong&gt;
开发者可以使用Cosmos 3生成大量&amp;quot;抓取-放置&amp;quot;任务的合成数据，包括不同物体形状、光照条件和桌面布局的变体。Agile Robots已经使用这一方法为其Thor 3人形机器人和FR3协作臂生成多样化的任务轨迹。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;场景2：自动驾驶仿真&lt;/strong&gt;
Cosmos 3 Super可以从文本描述或视频输入生成多种驾驶场景的未来预测，包括行人突然横穿、前车急刹、恶劣天气等边界情况。这对于自动驾驶系统的安全验证至关重要。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;场景3：仓储安全监控&lt;/strong&gt;
在工厂和仓库中，Cosmos 3可以作为视觉AI代理的&amp;quot;大脑&amp;quot;，实时推理叉车行驶路径、预测碰撞风险、生成密集场景描述和安全告警。&lt;/p&gt;
&lt;h3 id=&#34;优势与不足&#34;&gt;优势与不足
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;优势：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;首个将推理、生成和动作统一在单一模型中的开源方案&lt;/li&gt;
&lt;li&gt;原生动作数据生成能力，直接输出机器人控制指令&lt;/li&gt;
&lt;li&gt;完全开源，模型权重+训练脚本+工具链全部可用&lt;/li&gt;
&lt;li&gt;20万亿token训练数据带来的丰富物理世界理解&lt;/li&gt;
&lt;li&gt;Nano版本支持工作站级实时推理&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不足：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;硬件要求仍然较高，Nano也需要RTX PRO 6000&lt;/li&gt;
&lt;li&gt;生成动作数据的精度在复杂灵巧操作中仍需提升&lt;/li&gt;
&lt;li&gt;开源许可证虽然宽松，但Linux Foundation的OpenMDW 1.1仍是新许可证，行业认知度有限&lt;/li&gt;
&lt;li&gt;缺乏与闭源竞品（如Google RT-2）的直接对比基准&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;总结与展望&#34;&gt;总结与展望
&lt;/h2&gt;&lt;p&gt;Cosmos 3是物理AI领域的一个里程碑式发布。它第一次让开发者社区获得了一个&lt;strong&gt;开源的、全能的物理AI基础模型&lt;/strong&gt;，将视觉推理、世界模拟和动作生成统一在一个架构中。&lt;/p&gt;
&lt;p&gt;从战略角度看，这是NVIDIA从&amp;quot;卖铲子&amp;quot;（GPU）向&amp;quot;建生态&amp;quot;（平台+模型+工具）转型的关键一步。如果Cosmos生态能够像CUDA生态一样繁荣，NVIDIA将在物理AI时代占据与数字AI时代同样核心甚至更重要的位置。&lt;/p&gt;
&lt;p&gt;展望未来，我们可以期待：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Edge版本&lt;/strong&gt;即将推出，支持边缘设备本地运行&lt;/li&gt;
&lt;li&gt;更多合作伙伴加入生态，推动模型在更多垂直领域的应用&lt;/li&gt;
&lt;li&gt;后续版本可能在动作精度和多机器人协同方面有显著提升&lt;/li&gt;
&lt;li&gt;开源社区的贡献将进一步丰富模型能力和训练数据&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;物理AI的&amp;quot;基础模型&amp;quot;时代，正式开始了。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;strong&gt;参考来源：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blogs.nvidia.com/blog/cosmos-3-physical-ai-open-world-foundation-model&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Cosmos 3 - Open Physical AI Foundation Model&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Developer Blog - Develop Physical AI with Cosmos 3&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/nvidia/Cosmos&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Cosmos GitHub&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Cosmos 3 Technical Report&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
