深度分析物理AI具身智能机器人世界模型NVIDIA人形机器人

2026年6月13日

物理AI深度研究：AI从“会说”走向“会做”的产业拐点

过去三年，生成式AI解决了“语言、图像、代码如何生成”的问题；未来三到五年，真正昂贵的问题会变成：AI如何理解、预测并改变物理世界。所谓“物理AI”，不是给机器人接一个聊天机器人，而是把感知、推理、动作、仿真、控制和安全验证放进同一个闭环，让机器从“会说”走向“会做”。

一、物理AI到底是什么？

NVIDIA在其术语解释中给出的定义很直接：Physical AI 让摄像头、机器人、自动驾驶汽车等自主系统能够在物理世界中“感知、理解、推理，并执行或编排复杂动作”。这一定义的关键词不是“机器人”，而是物理世界中的行动能力：系统必须面对重力、摩擦、遮挡、碰撞、延迟、噪声、材料差异和不可逆后果。

因此，物理AI可以被理解为：

以多模态基础模型、世界模型、仿真系统和实时控制为核心，使机器能够在真实物理环境中完成可验证任务的AI系统。

它与几个相邻概念的关系如下：

概念	主要对象	关键能力	与物理AI的关系
生成式AI	文本、图像、音频、视频、代码	生成内容、理解语义	提供“认知层”和数据生成能力，但本身不必行动
具身智能	有身体的智能体	感知—行动闭环	是物理AI最重要的实现范式之一
机器人	机械本体与控制系统	执行动作	是物理AI最典型的载体，但不是全部
自动驾驶	车辆与交通系统	感知、规划、控制、安全冗余	是最早规模化的物理AI场景之一
仿真/数字孪生	虚拟物理环境	低成本试错、数据合成、验证	是物理AI训练和安全测试的基础设施

一个判断标准是：如果AI输出的错误只会导致信息错误，它主要仍在数字AI范畴；如果错误会导致物理损伤、生产停线或交通事故，它就进入了物理AI范畴。

二、为什么2024—2026年成为拐点？

物理AI不是新概念。机器人学、控制论、强化学习和自动驾驶已经发展多年。真正的新变化，是四条曲线在同一时间交汇：

1. 多模态模型从“看懂图片”走向“输出动作”

Google的RT-2把视觉语言模型扩展为 Vision-Language-Action（VLA）模型，把互联网规模的视觉—语言知识迁移到机器人控制上，目标是让机器人不只识别物体，还能把语义理解转化为动作。随后，Open X-Embodiment / RT-X 数据集进一步把多实验室、多机器人形态的数据合并起来，项目页披露其包含超过100万条真实机器人轨迹、22种机器人形态和来自34个机器人实验室的60个数据集。

这说明机器人学习正在从“每个机器人、每个任务单独训练”，走向“跨本体、跨任务迁移”。这与大语言模型从小数据监督学习走向互联网规模预训练，是同一种范式迁移。

2. 世界模型从游戏环境走向物理世界模拟

Google DeepMind在2024年发布Genie 2，称其为“大规模基础世界模型”，能够生成可交互的多样训练环境，并在同一初始画面下生成不同反事实轨迹，用于训练未来智能体。NVIDIA在2025年CES发布Cosmos世界基础模型平台，定位为服务机器人和自动驾驶等物理AI系统，包含生成式世界基础模型、视频 tokenizer、护栏和加速视频处理流水线。

世界模型的意义不只是“生成视频”。对物理AI而言，它的核心价值是把训练从昂贵、危险、缓慢的真实世界，部分转移到可控、可并行、可回放、可标注的虚拟世界。

3. 仿真与合成数据成为新的“数据飞轮”

物理AI最缺的不是文本，而是带有状态、动作、力反馈、时序和失败案例的真实交互数据。真实采集往往昂贵、危险且难覆盖长尾场景。NVIDIA在Cosmos发布中明确指出，物理AI模型开发成本高，需要大量真实数据和测试；Cosmos的目标就是让开发者生成大量基于物理的视频数据，用于训练机器人和自动驾驶系统。

这意味着数据飞轮正在改变：

真实世界少量采集
      ↓
数字孪生 / 仿真环境重建
      ↓
合成视频、合成轨迹、反事实场景
      ↓
模型训练与策略学习
      ↓
真实机器人部署与回传数据
      ↓
继续校准仿真与模型

4. 机器人硬件从“科研样机”走向“工程产品”

人形机器人过去像火箭：技术炫目但离日常生产远。2024—2026年的变化，是头部公司开始把人形机器人当成可制造、可维护、可迭代的工业产品来设计。

Figure在2025年发布Figure 03，称其为第三代人形机器人，面向Helix VLA系统、家庭和规模化世界应用重新设计了传感器套件、手部系统、无线充电、音频和电池安全。Agility Robotics则把Digit定位为面向仓储和物流场景的“人形解决方案”，并配套Arc云端自动化平台，用于接入仓库管理、执行系统和机器人工作流。中国企业方面，宇树公开展示H1、G1等人形机器人产品线，智元机器人则把A2、G1、G2等产品与“具身智能数据服务”“一站式开发平台”放在同一官网体系中，说明行业竞争已经从单机硬件扩展到数据、开发平台和场景交付。

三、核心技术栈：物理AI不是一个模型，而是一套闭环系统

把物理AI理解为“机器人接入大模型”，会严重低估它的复杂性。一个可用的物理AI系统至少包含六层。

1. 感知层：从“识别物体”到“理解可操作性”

传统视觉系统回答“这是什么”；物理AI还要回答：

它能否被抓取？
重心在哪里？
表面是否会滑？
抓取后是否会变形？
它与其他物体是否存在约束关系？

因此，传感器不仅包括摄像头、深度相机、激光雷达，还包括力矩、触觉、IMU、关节编码器、麦克风乃至温度与压力传感器。物理AI的感知是“为了行动的感知”。

2. 认知层：VLM/VLA把语言、视觉和动作连接起来

Gemini Robotics是Google DeepMind在2025年发布的机器人模型，基于Gemini 2.0，强调让AI进入物理世界。其中Gemini Robotics是视觉—语言—动作模型，直接把物理动作作为新的输出模态；Gemini Robotics-ER则强化空间理解与具身推理。DeepMind提出，有用的机器人AI需要三种品质：general（能适应不同情况）、interactive（能快速理解并响应指令或环境变化）、dexterous（能灵巧操作）。

这三点也是衡量物理AI是否真正“通用”的核心指标。

3. 世界模型层：预测“如果我这样做，会发生什么”

语言模型预测下一个token，世界模型预测下一个世界状态。它可以用于：

生成训练环境；
预测动作后果；
做反事实推演；
为强化学习提供低成本试错场；
在部署前进行安全验证。

NVIDIA Cosmos把世界基础模型用于“世界生成、动作生成、世界仿真、合成视频数据”等方向，正是在补上物理AI缺少可扩展训练环境的短板。

4. 策略层：从任务规划到低层运动控制

用户说“把桌上的杯子递给我”，机器需要拆解为：定位杯子、规划路径、选择抓取姿态、控制手指力度、避开障碍、递给目标人、在对方接稳后松手。这里既有高层任务规划，也有毫秒级低层控制。

Physical Intelligence发布的π0（pi-zero）把自己称为通用机器人基础模型，训练于多样数据，能够接收文本指令，并跨图像、文本、动作输出低层电机命令。它的关键意义在于：机器人基础模型开始尝试直接跨越“语义理解”和“运动控制”之间的鸿沟。

5. 仿真层：Sim-to-Real是产业化必修课

真实机器人试错贵、慢且危险。仿真可以并行生成上万种场景：不同光照、货架高度、地面摩擦、物体材质、人类干扰、异常天气、传感器噪声。仿真不是为了替代现实，而是为了把现实中稀缺的失败案例和长尾场景放大。

但Sim-to-Real永远有鸿沟：仿真中的摩擦、接触、柔性物体、液体、线缆、布料，都很难完全逼近现实。未来的竞争点不是“有没有仿真”，而是“仿真是否能被真实数据持续校准”。

6. 安全与验证层：物理AI必须先可信，再智能

数字AI出错，多数时候是改答案；物理AI出错，可能砸坏设备、伤人、造成交通事故。因此安全验证需要前置：动作边界、力控限制、急停机制、冗余传感、可解释日志、仿真回放、监管合规，都将成为商业化门槛。

四、全球玩家：三类公司正在争夺入口

1. 基础设施公司：卖“训练物理AI的铲子”

NVIDIA是最典型代表。它不是只卖GPU，而是在搭建“AI工厂 + Omniverse数字孪生 + Isaac机器人平台 + Cosmos世界模型 + Jetson/Thor边缘算力”的全栈生态。Cosmos发布时，NVIDIA列出的首批采用方包括1X、Agility、Figure AI、Uber、Waabi、小鹏等，覆盖机器人、自动驾驶与交通仿真。

这类公司的商业模式最清晰：无论谁做机器人，只要训练、仿真、推理和部署需要算力与工具链，基础设施公司都受益。

2. 模型公司：争夺“机器人基础模型”

Google DeepMind、Physical Intelligence、Skild AI等公司代表了模型路线。它们的核心问题是：能否训练出跨机器人本体、跨任务、跨场景的通用策略模型？

RT-2、RT-X、Gemini Robotics和π0显示出同一方向：把互联网知识、多机器人数据和真实动作轨迹统一进模型。若这条路走通，机器人行业可能出现类似大模型行业的分层：底层通用模型由少数玩家训练，应用公司在垂直场景中微调、部署和集成。

3. 本体与场景公司：争夺“真实数据入口”

Tesla、Figure、Agility、Boston Dynamics、1X、宇树、智元、优必选等属于本体与场景路线。它们的优势不是模型论文，而是真机迭代、供应链、客户场景和真实数据。

这里有一个容易被忽视的判断：未来最有价值的机器人公司，未必是机械结构最炫的公司，而是能持续获得高质量真实交互数据的公司。 因为数据会反过来训练策略模型，策略模型再提升部署能力，部署越多，数据越多，形成飞轮。

五、中国机会：供应链强，但不能只做“身体”

中国在人形机器人和具身智能上有三类优势。

第一，制造供应链完整。电机、减速器、丝杠、结构件、电池、传感器、整机装配、成本控制和快速迭代，是中国硬科技产业长期积累的能力。

第二，场景丰富。3C、汽车、仓储物流、商超、物业、矿山、电力巡检、养老康复，都能提供真实部署环境。物理AI不是靠PPT训练出来的，而是靠场景中的失败、返修、异常和长尾数据训练出来的。

第三，政策推动。工信部2023年《人形机器人创新发展指导意见》提出，到2025年初步建立人形机器人创新体系，到2027年技术创新能力显著提升，形成安全可靠的产业链供应链体系，构建具有国际竞争力的产业生态。2026年前后，工信部和国资委又推动人形机器人与具身智能实景实训专项行动，说明政策重点正在从“研发样机”转向“场景验证和常态部署”。

但短板也同样明显：

高质量跨本体机器人数据集仍不足；
通用VLA/VLM基础模型与海外顶尖团队存在差距；
复杂接触、柔性物体、长程任务的可靠性仍低；
机器人操作系统、仿真工具链、开发者生态还没有形成事实标准；
许多企业容易陷入“发布会参数竞争”，而不是“客户现场可用性竞争”。

中国企业如果只做低成本本体，最终可能变成“机器人代工厂”；如果能把本体、场景数据、仿真平台和模型训练闭环打通，才有机会成为物理AI时代的平台型公司。

六、商业化路径：先从“脏、累、险、缺人”的场景开始

物理AI的落地顺序，大概率不是从家庭保姆开始，而是从ROI清晰、环境相对可控、人工替代成本高的场景开始。

第一阶段：工业与仓储物流

仓库搬运、分拣、码垛、上下料、巡检、简单装配，是最现实的第一波应用。Agility的Digit强调连接仓库中不同自动化孤岛，配合Arc平台接入现有仓储系统，说明商业化重点不是“像人”，而是“能接入已有流程并稳定创造价值”。

第二阶段：汽车、3C与柔性制造

汽车和3C工厂既有自动化基础，又有大量非标、柔性、换线任务。人形机器人不一定比机械臂更便宜，但它可能在“为人设计的空间”中更容易部署：不用大规模改造产线，就能执行搬运、检测、拧螺丝、取放料等任务。

第三阶段：商用服务与公共空间

酒店、商超、医院、园区、机场、物业巡检等场景，对交互能力要求更高，对安全和稳定性要求也更高。这里的机器人不只是执行动作，还要理解人类语言、避让人群、处理异常。

第四阶段：家庭

家庭是终极大市场，也是最难场景。家庭环境高度非结构化：物体种类多、空间变化大、任务模糊、安全容忍度低、支付意愿不稳定。Figure 03强调面向家庭重新设计安全、电池、无线充电、音频和手部系统，说明头部企业已经在为家庭做准备，但家庭规模化仍需要更长时间。

七、投资与产业判断：不要只看“人形”，要看三条飞轮

物理AI会带来很多热闹概念，但真正值得跟踪的是三条飞轮。

1. 数据飞轮

谁拥有真实场景、真实机器人、真实失败数据，谁就拥有模型改进的燃料。未来机器人行业的核心资产可能不是单台硬件毛利，而是“可复用的具身数据”。

2. 仿真飞轮

谁能把真实数据变成高保真仿真，再把仿真生成的数据用于模型训练，谁就能更快覆盖长尾场景。NVIDIA Cosmos、Omniverse、Isaac的组合，正是在把这个飞轮平台化。

3. 供应链飞轮

物理AI最终要落到成本、可靠性、维护和交付。电机、减速器、丝杠、传感器、控制器、边缘计算模块、热管理、电池、安全认证，都会决定产品能否从Demo进入规模部署。

对中国企业而言，短期机会在零部件、整机代工、场景集成和数据采集；中期机会在垂直行业解决方案；长期机会在具身基础模型、仿真工具链和机器人操作系统。

八、主要风险：物理AI的“ChatGPT时刻”不会简单复制

1. 泛化能力被高估

语言模型在互联网上学到的是符号规律；机器人面对的是接触动力学。把衣服叠好、把线缆插入接口、在拥挤厨房中拿杯子，都比生成一段文字复杂得多。很多演示视频展示的是成功样本，但商业客户买的是全天候稳定性。

2. 成本下降不等于ROI成立

即使机器人售价下降，企业还要考虑部署、维护、培训、停机、保险、备件、软件订阅和安全责任。真正的比较对象不是“机器人看起来多先进”，而是“它能否在24个月内回本”。

3. 安全监管会成为硬门槛

物理AI进入工厂、道路、医院和家庭后，监管不可避免。机器人伤人、自动驾驶事故、数据隐私、远程控制安全、模型不可解释，都会成为行业必须回答的问题。

4. 数据闭环可能导致强者恒强

如果真实部署数据成为模型改进的核心资源，先进入场景的企业会越跑越快。后来者如果只有硬件，没有数据和软件闭环，可能很快被边缘化。

九、结论：物理AI不是机器人热，而是AI产业边界外扩

生成式AI证明了“规模化模型 + 海量数据 + 强算力”可以重塑数字世界。物理AI要验证的是：同样的范式能否进入真实世界。

我的判断是：

物理AI不是短期概念，而是AI产业从信息生产走向物理生产的必经阶段。
人形机器人是最吸引眼球的载体，但不是唯一主线；自动驾驶、工业机器人、仓储物流、智能工厂同样是物理AI。
未来竞争不只是本体硬件，而是“模型—数据—仿真—场景—供应链”的系统战。
中国有供应链和场景优势，但必须补上基础模型、仿真工具链和数据标准，否则容易停留在硬件制造环节。
商业化会先从结构化、ROI明确的工业场景爆发，再逐步进入公共服务和家庭。

如果说ChatGPT让AI学会了“表达”，物理AI要让AI学会“承担后果”。这也是它更难、更慢、更昂贵，但最终更有产业价值的原因。

参考资料

NVIDIA Glossary：What is Physical AI?
NVIDIA Newsroom：NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development
NVIDIA Cosmos：Physical AI with World Foundation Models
Google DeepMind：Gemini Robotics brings AI into the physical world
Google DeepMind：Genie 2: A large-scale foundation world model
Google Research：RT-2: Vision-Language-Action Models
Open X-Embodiment Collaboration：Open X-Embodiment: Robotic Learning Datasets and RT-X Models
Physical Intelligence：Our First Generalist Policy π0
Figure AI：Introducing Figure 03
Agility Robotics：Humanoid Solutions / Digit
Unitree Robotics：H1 Humanoid Robot / G1 Humanoid Robot
智元机器人：AGIBOT 官方网站
arXiv：A Survey on Vision-Language-Action Models for Embodied AI