九游会（九游会真人游戏股份有限公司）J9-官方网站

13647210798

三大路线全吃瘪？马斯克也栽了产线停摆巨头死磕“世界模型”

发布时间：2026-06-01 09:16:05

三大路线全吃瘪？马斯克也栽了产线停摆巨头死磕“世界模型”

　　外行看能跳舞，内行看懂两个核心突破：一是不用提前写死代码，人类说句话、指个动作，机器人就能照着完成。

　　二是用上了大语言模型的Transformer训练逻辑，把看画面、听指令、做动作三者打通。

　　之后全球科技圈沿着这条VLA路线月加州伯克利发布UP-TO模型，6月斯坦福、伯克利和丰田联合推出OpenVLA，年底创业公司PhysicalIntelligence放出优化版模型“π0”。

　　π0把轻量化部署、降低门槛做到极致，还开源了核心代码，像2014年特斯拉开源新能源汽车一样，彻底点燃了资本热情。

　　很多人觉得，有了大语言模型，人形机器人就指日可待，但现实是，现在的机器人根本没法脱离遥控器，离“像保姆一样听话做事”还差十万八千里。

　　第一个问题数据采集难，要训练机器人，得先给它喂够海量的交互数据，业内预测至少需要百万小时的真实物理场景数据。

　　但三种主流采集方式全卡壳：真人动作捕捉太慢，戴着VR设备、柔性手套同步关节角度，一小时能采几十组数据就不错，百万小时得攒到猴年马月。

　　视频捕捉精度有限，人手有27个自由度，现有机械手根本达不到，拍下来的动作数据没法落地。

　　仿真环境再逼真，也复刻不了现实里的摩擦力、关节磨损、材质差异，实验室里能成的动作，放到真实工厂就失灵。

　　第二，硬件泛化难，就算攒够了数据，机器人也没法通用，同样的机器人，在A工厂能抓零件，到B工厂换个地板材料就抓不住，同一家公司的同款机械手，换一只就认不出抓取参数。

　　有从业者直言，就算训练好的机械手，换个同品牌新的都没法用，硬件标准化的缺口大到离谱。

　　核心逻辑错位。聊天机器人和人形机器人根本不是一回事，前者靠海量文本数据就能训练，答案哪怕有偏差也能调整，后者需要的是每一个动作都精准，倒杯水就得刚好举到嘴边，差一厘米都不行。

　　前者可以靠概率猜词，后者必须理解物理规则，这也是为什么谷歌RT2之后，行业跑了三年还是没摸到真正的痛点。

　　第一波是大厂玩家，主攻世界模型。他们要让AI不光读文字、看图片，还要能感知触觉、力觉，真正理解真实世界的物理规则。

　　英伟达、OpenAI、谷歌DeepMind、字节、阿里是目前仅有的在做这件事的玩家。

　　第二波是学者阵营，喊着要新范式革命，以杨立坤、李飞飞为代表，他们认为现在的大语言模型只是概率游戏，根本不算真正的智能，光靠砸数据没用。

　　他们主张让AI从“背数据”转向“理解世界”，比如李飞飞让AI在三维虚拟环境里主动探索，杨立坤让AI通过猜照片里的隐藏细节来学习世界结构。

　　第三波是创业团队，主打细分场景硬啃，他们没钱烧算力，也不想搞空泛的理论，就盯着一个具体问题下手：有人造灵巧手，比如新加坡一家中国创业公司在2026年CES展出的22自由度灵巧手，把行业水平拉高了一截。

　　有人降数据采集成本，把真人捕捉的效率翻了好几倍，还有人只做细分场景，比如专门做家务整理、产线包装的机器人，先把一个场景做透，再慢慢拓展。

　　目前业内估算，人形机器人离真正成熟，总进度大概只有0.2%。就像登陆火星一样，这个赛道不是一朝一夕能成的。

　　但过程里已经带出了一堆红利：动作捕捉技术变得更成熟，AI视频生成的质量突飞猛进，自动驾驶靠世界模型提升了判断能力，机器人核心零部件的成本也被砸下来了一半，工业机械臂的门槛大大降低。

　　马斯克常说特斯拉80%的市值来自Optimus，但现在连量产都卡在了产能和算法上。

　　人形机器人的热度从来不是假的，但大家都得承认，它还在第一关“打数据小怪”就卡了壳。不管最后什么时候能造出能端茶倒水的保姆机器人，这趟探索已经让整个科技圈向前迈了一大步。返回搜狐，查看更多九游会九游会

商务合作

手机：13647210798

公司地址：武汉市青山区冶金街道工业二路恒大御府会所一层

电话：13647210798

传真：027-68862036

企业邮箱：zege@zegene.cn

在线留言

姓名

电话

留言

提交

客服电话

13647210798