智能相对论:VLA不会死，但不融合世界模型的除外

文 | 智能相对论

作者 | 叶远风

2026年5月，具身智能圈子里流传着一个不太好笑的杜撰笑话：一个VLA模型在演示时，被要求“把桌上那个苹果拿给我”。机械臂优雅地伸过去，稳稳地抓住了一个马克杯。现场死寂。工程师冷汗直冒，赶紧在Pad上打字：“重新定义苹果”。

过去半年，类似的翻车笑话很多，主角从国内估值最高的那几家独角兽，到大洋彼岸Figure AI、Physical Intelligence，无一幸免。

前两年，行业还在为VLA（Vision-Language-Action，视觉-语言-动作模型）这个技术路线摇旗呐喊。Covariant的RFM-1刚露面时，媒体恨不得把“通用机器人奇点”的帽子直接扣它头上。谷歌DeepMind的RT-2论文一出，二级市场的分析师们连夜改报告，把具身智能的商业化时间表往前挪了三年。

到了现在，没人再提“奇点”了。

大家关心的是，这玩意儿到底能不能在工厂里把螺丝拧进孔里，而不是把螺丝刀捅进自己的电机里。在VLA体系下，具身智能稍显拙劣的表现，让英伟达机器人一号位Jim Fan甚至直接高呼“VLA已死”。

只是，这话说得太早。

VLA不会死，那些试图只用互联网图文视频和几张机械臂遥操作数据就幻想造出通用机器人的VLA，确实该被埋进土里，但另一种东西正在长出来，它融合了被行业念叨了好几年却一直没认真对待的“世界模型”。这可能是未来三年，具身智能唯一能走通的路。

活在互联网里的“缸中大脑”

要理解VLA为什么频频翻车，得先搞清楚它的基因缺陷。

现在主流的VLA架构，无论是谷歌的RT-2，还是国内星尘智能等公司捣鼓的东西，骨子里的逻辑都是一脉相承的。先用互联网上海量的图文数据，把视觉和语言对齐，让模型看懂图、听懂人话；然后，再接入机器人的动作数据，做端到端的微调，让模型能输出动作指令。

这套打法的最大诱惑力在于“省钱”。它试图复用大语言模型和视觉-语言模型的基础设施，把机器人学习变成一个“轻量化”的微调任务。

投资人爱听这个故事：不用从零开始收集昂贵的物理世界交互数据，只需站在互联网巨头的肩膀上。

但问题来了。互联网数据教会了模型“苹果是红色的圆形物体”，却没教会它“苹果被施加10牛顿的力会发生形变并可能滚开”。

互联网上的视频，都是被剪辑过的、符合人类视觉审美的片段，充满了光滑的转场和因果关系的大幅跳跃。

一个杯子从桌面边缘掉落，下一个镜头往往是它已经在地板上摔碎了，或者被一只手稳稳接住。那个决定命运的瞬间——杯子在指尖打滑、摩擦系数不足、倾斜角度过大——永远消失了。

VLA学到的物理，是一种基于表面关联的“伪物理”。它知道“掉落”往往伴随着“碎裂”，但它不理解一个盛满热咖啡的玻璃壶在倾斜多少度时，壶盖会因为重心不稳而自己滑落。谷歌DeepMind的RT-2论文里也坦承，模型在面对全新的物体组合或需要精细力控的场景时，泛化能力会急剧下降。

而更进一步，Physical Intelligence的论文揭示了一个现实，即便你把模型规模再扩大十倍，灌入更多的网络图片，它对物理交互的预测能力也几乎是一条平直的线。这个领域的scaling law，在物理交互这个维度上，碰壁了。

所以，现在的VLA演示，就像一场精心排练的魔术。

你只能在实验室那0.5平方米的区域内，用那固定的三五种道具，在严格控制的光照和背景下，看到机器人流畅地抓取。一旦稍微改变背景，或者放进去一个反光、透明的物体，模型的“缸中大脑”本质就暴露了。

它只知道答案，但不知道过程。

世界模型不是万能药，但它是唯一的解药

“世界模型”这个词最近的热度，有点像几年前的元宇宙，是个人都在提，但好像谁也没见过它的真身。Yann LeCun在Meta的AI部门整天把世界模型挂在嘴边，认为这是通向真正智能的关键。英伟达的黄仁勋也在GTC上为它站台。

在具身智能的语境下，世界模型被寄予厚望，但在一些人手里，它差点沦为一种文字游戏。一些团队的做法简单粗暴：在VLA的输出端，套壳一个现成的物理仿真引擎，用来“修正”那些违背物理常识的动作。

比如，模型说要穿透桌子去拿东西，仿真器就弹出一个“碰撞警告”，把手臂拦下来。

这叫融合世界模型？这叫给烂代码打补丁。

真正的融合，核心在于内在化。

一个强大的世界模型，应该是VLA的“潜意识”和“直觉模块”，而不是一个外挂的安全监督员。

它在VLA做出决策之前，就能在内部以极快的速度推演接下来几秒的物理变化，并反过来约束和指导动作的生成。

我抬手去接一个抛过来的钥匙，我的大脑不会先规划好手指的精确轨迹，再等着视觉反馈来纠偏。我的大脑里有一个关于“钥匙会以何种抛物线飞来、风阻多大、落点在哪”的内化模型，它直接驱动我的肌肉记忆，让我几乎是本能地调整身体姿态。

李飞飞团队的RoboAgent工作和最近的一些新尝试，正在朝这个方向努力。他们让模型不仅仅学习“看到杯子-输出抓取动作”，而是强迫模型在学习动作的同时，去预测下一帧的深度图、物体分割图，甚至接触力的分布。

这不仅仅是输入输出通道的扩展。它在逼迫模型从二维像素的关联中抽离出来，去建构一个内部的、三维的、有因果的物理表征。

当模型能准确预测“如果我用这个角度和速度去推那个瓶子，它接下来0.5秒会向右倾倒”时，它才算真正“理解”了瓶子的动力学特性。这个时候，抓取动作才不会像现在这样，要么畏畏缩缩不敢碰，要么用力过猛直接怼飞。

前景是可见的，大大小小的机器人公司都已经开始着手这样的融合了，VLA+世界模型，会盖上各种概念的帽子，成为行业的共识。

Jim Fan喊出的“WAM万岁”，本质上也是这么个组合。

用不了多久，所有认真的具身智能公司都会在技术白皮书里写上“我们构建了端到端的世界模型”，或者类似的把VLA和世界模型融合的概念——名字不同，甚至还叫VLA模型，但本质都一样。

数据工厂的沉默战争，决定谁能笑到最后

争论VLA死不死、世界模型灵不灵，其实都有点隔靴搔痒。

这些上层建筑的问题，最终都回归到一个最底层、最不性感的东西上：数据。

一位在头部人形机器人公司负责数据采集的哥们私下跟“智能相对论”说，他们现在最头疼的不是算法调参，而是怎么让那群远程遥操作的标注员别打瞌睡。

为了采集高质量的操作数据，他们请来退休的老工程师，戴着手套一整天重复拧一个零件。但老人家的手会抖，精细动作的遥操作映射总是出问题。采集一天的数据，洗一洗、对齐一下，真正能喂给模型的不到10%。

这还是一个动作。而要让VLA+世界模型真正学会泡一杯咖啡，它需要知道水壶的重量变化、蒸汽的温度分布、水流的冲击力、茶杯的材质。这些数据，没有任何互联网图文数据库能给到。

这是一场前所未有的数据工厂战争。

特斯拉的Optimus团队之所以被无数人盯着，除了马斯克的明星光环，更重要的是他们正在把汽车自动驾驶那套“影子模式”和数据引擎体系，迁移到机器人上。Optimus在工厂里拧螺丝的每一次成功和失败，都会被自动标注、回流、迭代训练。这是一个可怕的、能自我造血的数据飞轮。

相比之下，国内多数机器人公司还在用“堆人”的远古模式。租一个几千平米的场地，像当年数据标注村一样，密集地请人来做遥操作。数据质量参差不齐，采集成本居高不下。

这直接导致了一个结果：VLA+世界模型的技术路线虽然会成为共识，但真正的技术壁垒，会从模型架构本身，迅速转移到数据工厂的规模和效率上。

未来的竞争是分层级的。最高的一层，是能构建“物理世界基础模型”的公司，如OpenAI、谷歌DeepMind、英伟达。它们提供最底层的、能理解基本物理规律的VLA基座。

中间的一层，是能拥有高效、海量且多样的私有数据工厂的机器人公司。它们用自己场景里的“私域数据”，在基座模型上进行深度微调，形成特定领域（如3C组装、餐饮服务）的超级专家模型。

没有高效数据工厂的公司，会沦为基础模型厂商的分销商，或者只能在那些技术要求不高的巡检、导引场景里卷生卷死。

数据，物理交互的高质量数据，是VLA最终能用的唯一弹药。没有弹药，拿着最先进的枪也是烧火棍。

看看Physical Intelligence，这家由一群顶尖学术大佬创立的明星公司，今年以来疯狂地跟各种制造业、物流企业签合作协议。他们图的不是那点服务费，而是那些场景里最真实、最肮脏、最充满不确定性的物理交互数据。Uber当年的崛起，靠的不是算法，是那些在全世界城市街道上奔跑的私家车带来的数据垄断。

具身智能的Uber时刻，还没来，但已经在倒计时了。

结语

VLA没死，它只是在长大。这个长大的标志，就是它必须从互联网的温室里被连根拔起，扔进物理世界的泥土里。

它需要长出世界模型这个新的认知器官，去理解和预测物理的因果。而这一切能否发生，取决于那些最不被镁光灯照耀的角落——数据工厂里，工人的动作是不是标准，传感器的噪音是不是被滤掉，那些失败的操作有没有被认真地记录下来。

具身智能的宏大叙事已经落幕，一场更枯燥、更残酷的工程战，刚刚开场。

*本文图片均来源于网络