深度分析 物理AI具身智能机器人世界模型NVIDIA人形机器人

物理AI深度研究:AI从“会说”走向“会做”的产业拐点

过去三年,生成式AI解决了“语言、图像、代码如何生成”的问题;未来三到五年,真正昂贵的问题会变成:AI如何理解、预测并改变物理世界。所谓“物理AI”,不是给机器人接一个聊天机器人,而是把感知、推理、动作、仿真、控制和安全验证放进同一个闭环,让机器从“会说”走向“会做”。

一、物理AI到底是什么?

NVIDIA在其术语解释中给出的定义很直接:Physical AI 让摄像头、机器人、自动驾驶汽车等自主系统能够在物理世界中“感知、理解、推理,并执行或编排复杂动作”。这一定义的关键词不是“机器人”,而是物理世界中的行动能力:系统必须面对重力、摩擦、遮挡、碰撞、延迟、噪声、材料差异和不可逆后果。

因此,物理AI可以被理解为:

以多模态基础模型、世界模型、仿真系统和实时控制为核心,使机器能够在真实物理环境中完成可验证任务的AI系统。

它与几个相邻概念的关系如下:

概念主要对象关键能力与物理AI的关系
生成式AI文本、图像、音频、视频、代码生成内容、理解语义提供“认知层”和数据生成能力,但本身不必行动
具身智能有身体的智能体感知—行动闭环是物理AI最重要的实现范式之一
机器人机械本体与控制系统执行动作是物理AI最典型的载体,但不是全部
自动驾驶车辆与交通系统感知、规划、控制、安全冗余是最早规模化的物理AI场景之一
仿真/数字孪生虚拟物理环境低成本试错、数据合成、验证是物理AI训练和安全测试的基础设施

一个判断标准是:如果AI输出的错误只会导致信息错误,它主要仍在数字AI范畴;如果错误会导致物理损伤、生产停线或交通事故,它就进入了物理AI范畴。

二、为什么2024—2026年成为拐点?

物理AI不是新概念。机器人学、控制论、强化学习和自动驾驶已经发展多年。真正的新变化,是四条曲线在同一时间交汇:

1. 多模态模型从“看懂图片”走向“输出动作”

Google的RT-2把视觉语言模型扩展为 Vision-Language-Action(VLA)模型,把互联网规模的视觉—语言知识迁移到机器人控制上,目标是让机器人不只识别物体,还能把语义理解转化为动作。随后,Open X-Embodiment / RT-X 数据集进一步把多实验室、多机器人形态的数据合并起来,项目页披露其包含超过100万条真实机器人轨迹、22种机器人形态和来自34个机器人实验室的60个数据集。

这说明机器人学习正在从“每个机器人、每个任务单独训练”,走向“跨本体、跨任务迁移”。这与大语言模型从小数据监督学习走向互联网规模预训练,是同一种范式迁移。

2. 世界模型从游戏环境走向物理世界模拟

Google DeepMind在2024年发布Genie 2,称其为“大规模基础世界模型”,能够生成可交互的多样训练环境,并在同一初始画面下生成不同反事实轨迹,用于训练未来智能体。NVIDIA在2025年CES发布Cosmos世界基础模型平台,定位为服务机器人和自动驾驶等物理AI系统,包含生成式世界基础模型、视频 tokenizer、护栏和加速视频处理流水线。

世界模型的意义不只是“生成视频”。对物理AI而言,它的核心价值是把训练从昂贵、危险、缓慢的真实世界,部分转移到可控、可并行、可回放、可标注的虚拟世界。

3. 仿真与合成数据成为新的“数据飞轮”

物理AI最缺的不是文本,而是带有状态、动作、力反馈、时序和失败案例的真实交互数据。真实采集往往昂贵、危险且难覆盖长尾场景。NVIDIA在Cosmos发布中明确指出,物理AI模型开发成本高,需要大量真实数据和测试;Cosmos的目标就是让开发者生成大量基于物理的视频数据,用于训练机器人和自动驾驶系统。

这意味着数据飞轮正在改变:

真实世界少量采集

数字孪生 / 仿真环境重建

合成视频、合成轨迹、反事实场景

模型训练与策略学习

真实机器人部署与回传数据

继续校准仿真与模型

4. 机器人硬件从“科研样机”走向“工程产品”

人形机器人过去像火箭:技术炫目但离日常生产远。2024—2026年的变化,是头部公司开始把人形机器人当成可制造、可维护、可迭代的工业产品来设计。

Figure在2025年发布Figure 03,称其为第三代人形机器人,面向Helix VLA系统、家庭和规模化世界应用重新设计了传感器套件、手部系统、无线充电、音频和电池安全。Agility Robotics则把Digit定位为面向仓储和物流场景的“人形解决方案”,并配套Arc云端自动化平台,用于接入仓库管理、执行系统和机器人工作流。中国企业方面,宇树公开展示H1、G1等人形机器人产品线,智元机器人则把A2、G1、G2等产品与“具身智能数据服务”“一站式开发平台”放在同一官网体系中,说明行业竞争已经从单机硬件扩展到数据、开发平台和场景交付。

三、核心技术栈:物理AI不是一个模型,而是一套闭环系统

把物理AI理解为“机器人接入大模型”,会严重低估它的复杂性。一个可用的物理AI系统至少包含六层。

1. 感知层:从“识别物体”到“理解可操作性”

传统视觉系统回答“这是什么”;物理AI还要回答:

  • 它能否被抓取?
  • 重心在哪里?
  • 表面是否会滑?
  • 抓取后是否会变形?
  • 它与其他物体是否存在约束关系?

因此,传感器不仅包括摄像头、深度相机、激光雷达,还包括力矩、触觉、IMU、关节编码器、麦克风乃至温度与压力传感器。物理AI的感知是“为了行动的感知”。

2. 认知层:VLM/VLA把语言、视觉和动作连接起来

Gemini Robotics是Google DeepMind在2025年发布的机器人模型,基于Gemini 2.0,强调让AI进入物理世界。其中Gemini Robotics是视觉—语言—动作模型,直接把物理动作作为新的输出模态;Gemini Robotics-ER则强化空间理解与具身推理。DeepMind提出,有用的机器人AI需要三种品质:general(能适应不同情况)、interactive(能快速理解并响应指令或环境变化)、dexterous(能灵巧操作)。

这三点也是衡量物理AI是否真正“通用”的核心指标。

3. 世界模型层:预测“如果我这样做,会发生什么”

语言模型预测下一个token,世界模型预测下一个世界状态。它可以用于:

  • 生成训练环境;
  • 预测动作后果;
  • 做反事实推演;
  • 为强化学习提供低成本试错场;
  • 在部署前进行安全验证。

NVIDIA Cosmos把世界基础模型用于“世界生成、动作生成、世界仿真、合成视频数据”等方向,正是在补上物理AI缺少可扩展训练环境的短板。

4. 策略层:从任务规划到低层运动控制

用户说“把桌上的杯子递给我”,机器需要拆解为:定位杯子、规划路径、选择抓取姿态、控制手指力度、避开障碍、递给目标人、在对方接稳后松手。这里既有高层任务规划,也有毫秒级低层控制。

Physical Intelligence发布的π0(pi-zero)把自己称为通用机器人基础模型,训练于多样数据,能够接收文本指令,并跨图像、文本、动作输出低层电机命令。它的关键意义在于:机器人基础模型开始尝试直接跨越“语义理解”和“运动控制”之间的鸿沟。

5. 仿真层:Sim-to-Real是产业化必修课

真实机器人试错贵、慢且危险。仿真可以并行生成上万种场景:不同光照、货架高度、地面摩擦、物体材质、人类干扰、异常天气、传感器噪声。仿真不是为了替代现实,而是为了把现实中稀缺的失败案例和长尾场景放大。

但Sim-to-Real永远有鸿沟:仿真中的摩擦、接触、柔性物体、液体、线缆、布料,都很难完全逼近现实。未来的竞争点不是“有没有仿真”,而是“仿真是否能被真实数据持续校准”。

6. 安全与验证层:物理AI必须先可信,再智能

数字AI出错,多数时候是改答案;物理AI出错,可能砸坏设备、伤人、造成交通事故。因此安全验证需要前置:动作边界、力控限制、急停机制、冗余传感、可解释日志、仿真回放、监管合规,都将成为商业化门槛。

四、全球玩家:三类公司正在争夺入口

1. 基础设施公司:卖“训练物理AI的铲子”

NVIDIA是最典型代表。它不是只卖GPU,而是在搭建“AI工厂 + Omniverse数字孪生 + Isaac机器人平台 + Cosmos世界模型 + Jetson/Thor边缘算力”的全栈生态。Cosmos发布时,NVIDIA列出的首批采用方包括1X、Agility、Figure AI、Uber、Waabi、小鹏等,覆盖机器人、自动驾驶与交通仿真。

这类公司的商业模式最清晰:无论谁做机器人,只要训练、仿真、推理和部署需要算力与工具链,基础设施公司都受益。

2. 模型公司:争夺“机器人基础模型”

Google DeepMind、Physical Intelligence、Skild AI等公司代表了模型路线。它们的核心问题是:能否训练出跨机器人本体、跨任务、跨场景的通用策略模型?

RT-2、RT-X、Gemini Robotics和π0显示出同一方向:把互联网知识、多机器人数据和真实动作轨迹统一进模型。若这条路走通,机器人行业可能出现类似大模型行业的分层:底层通用模型由少数玩家训练,应用公司在垂直场景中微调、部署和集成。

3. 本体与场景公司:争夺“真实数据入口”

Tesla、Figure、Agility、Boston Dynamics、1X、宇树、智元、优必选等属于本体与场景路线。它们的优势不是模型论文,而是真机迭代、供应链、客户场景和真实数据。

这里有一个容易被忽视的判断:未来最有价值的机器人公司,未必是机械结构最炫的公司,而是能持续获得高质量真实交互数据的公司。 因为数据会反过来训练策略模型,策略模型再提升部署能力,部署越多,数据越多,形成飞轮。

五、中国机会:供应链强,但不能只做“身体”

中国在人形机器人和具身智能上有三类优势。

第一,制造供应链完整。电机、减速器、丝杠、结构件、电池、传感器、整机装配、成本控制和快速迭代,是中国硬科技产业长期积累的能力。

第二,场景丰富。3C、汽车、仓储物流、商超、物业、矿山、电力巡检、养老康复,都能提供真实部署环境。物理AI不是靠PPT训练出来的,而是靠场景中的失败、返修、异常和长尾数据训练出来的。

第三,政策推动。工信部2023年《人形机器人创新发展指导意见》提出,到2025年初步建立人形机器人创新体系,到2027年技术创新能力显著提升,形成安全可靠的产业链供应链体系,构建具有国际竞争力的产业生态。2026年前后,工信部和国资委又推动人形机器人与具身智能实景实训专项行动,说明政策重点正在从“研发样机”转向“场景验证和常态部署”。

但短板也同样明显:

  • 高质量跨本体机器人数据集仍不足;
  • 通用VLA/VLM基础模型与海外顶尖团队存在差距;
  • 复杂接触、柔性物体、长程任务的可靠性仍低;
  • 机器人操作系统、仿真工具链、开发者生态还没有形成事实标准;
  • 许多企业容易陷入“发布会参数竞争”,而不是“客户现场可用性竞争”。

中国企业如果只做低成本本体,最终可能变成“机器人代工厂”;如果能把本体、场景数据、仿真平台和模型训练闭环打通,才有机会成为物理AI时代的平台型公司。

六、商业化路径:先从“脏、累、险、缺人”的场景开始

物理AI的落地顺序,大概率不是从家庭保姆开始,而是从ROI清晰、环境相对可控、人工替代成本高的场景开始。

第一阶段:工业与仓储物流

仓库搬运、分拣、码垛、上下料、巡检、简单装配,是最现实的第一波应用。Agility的Digit强调连接仓库中不同自动化孤岛,配合Arc平台接入现有仓储系统,说明商业化重点不是“像人”,而是“能接入已有流程并稳定创造价值”。

第二阶段:汽车、3C与柔性制造

汽车和3C工厂既有自动化基础,又有大量非标、柔性、换线任务。人形机器人不一定比机械臂更便宜,但它可能在“为人设计的空间”中更容易部署:不用大规模改造产线,就能执行搬运、检测、拧螺丝、取放料等任务。

第三阶段:商用服务与公共空间

酒店、商超、医院、园区、机场、物业巡检等场景,对交互能力要求更高,对安全和稳定性要求也更高。这里的机器人不只是执行动作,还要理解人类语言、避让人群、处理异常。

第四阶段:家庭

家庭是终极大市场,也是最难场景。家庭环境高度非结构化:物体种类多、空间变化大、任务模糊、安全容忍度低、支付意愿不稳定。Figure 03强调面向家庭重新设计安全、电池、无线充电、音频和手部系统,说明头部企业已经在为家庭做准备,但家庭规模化仍需要更长时间。

七、投资与产业判断:不要只看“人形”,要看三条飞轮

物理AI会带来很多热闹概念,但真正值得跟踪的是三条飞轮。

1. 数据飞轮

谁拥有真实场景、真实机器人、真实失败数据,谁就拥有模型改进的燃料。未来机器人行业的核心资产可能不是单台硬件毛利,而是“可复用的具身数据”。

2. 仿真飞轮

谁能把真实数据变成高保真仿真,再把仿真生成的数据用于模型训练,谁就能更快覆盖长尾场景。NVIDIA Cosmos、Omniverse、Isaac的组合,正是在把这个飞轮平台化。

3. 供应链飞轮

物理AI最终要落到成本、可靠性、维护和交付。电机、减速器、丝杠、传感器、控制器、边缘计算模块、热管理、电池、安全认证,都会决定产品能否从Demo进入规模部署。

对中国企业而言,短期机会在零部件、整机代工、场景集成和数据采集;中期机会在垂直行业解决方案;长期机会在具身基础模型、仿真工具链和机器人操作系统。

八、主要风险:物理AI的“ChatGPT时刻”不会简单复制

1. 泛化能力被高估

语言模型在互联网上学到的是符号规律;机器人面对的是接触动力学。把衣服叠好、把线缆插入接口、在拥挤厨房中拿杯子,都比生成一段文字复杂得多。很多演示视频展示的是成功样本,但商业客户买的是全天候稳定性。

2. 成本下降不等于ROI成立

即使机器人售价下降,企业还要考虑部署、维护、培训、停机、保险、备件、软件订阅和安全责任。真正的比较对象不是“机器人看起来多先进”,而是“它能否在24个月内回本”。

3. 安全监管会成为硬门槛

物理AI进入工厂、道路、医院和家庭后,监管不可避免。机器人伤人、自动驾驶事故、数据隐私、远程控制安全、模型不可解释,都会成为行业必须回答的问题。

4. 数据闭环可能导致强者恒强

如果真实部署数据成为模型改进的核心资源,先进入场景的企业会越跑越快。后来者如果只有硬件,没有数据和软件闭环,可能很快被边缘化。

九、结论:物理AI不是机器人热,而是AI产业边界外扩

生成式AI证明了“规模化模型 + 海量数据 + 强算力”可以重塑数字世界。物理AI要验证的是:同样的范式能否进入真实世界。

我的判断是:

  1. 物理AI不是短期概念,而是AI产业从信息生产走向物理生产的必经阶段。
  2. 人形机器人是最吸引眼球的载体,但不是唯一主线;自动驾驶、工业机器人、仓储物流、智能工厂同样是物理AI。
  3. 未来竞争不只是本体硬件,而是“模型—数据—仿真—场景—供应链”的系统战。
  4. 中国有供应链和场景优势,但必须补上基础模型、仿真工具链和数据标准,否则容易停留在硬件制造环节。
  5. 商业化会先从结构化、ROI明确的工业场景爆发,再逐步进入公共服务和家庭。

如果说ChatGPT让AI学会了“表达”,物理AI要让AI学会“承担后果”。这也是它更难、更慢、更昂贵,但最终更有产业价值的原因。


参考资料