九游会(九游会真人游戏股份有限公司)J9-官方网站

三大路线全吃瘪?马斯克也栽了产线停摆巨头死磕“世界模型”
发布时间:2026-06-01 09:16:05

  

三大路线全吃瘪?马斯克也栽了产线停摆巨头死磕“世界模型”

  外行看能跳舞,内行看懂两个核心突破:一是不用提前写死代码,人类说句话、指个动作,机器人就能照着完成。

  二是用上了大语言模型的Transformer训练逻辑,把看画面、听指令、做动作三者打通。

  之后全球科技圈沿着这条VLA路线月加州伯克利发布UP-TO模型,6月斯坦福、伯克利和丰田联合推出OpenVLA,年底创业公司PhysicalIntelligence放出优化版模型“π0”。

  π0把轻量化部署、降低门槛做到极致,还开源了核心代码,像2014年特斯拉开源新能源汽车一样,彻底点燃了资本热情。

  很多人觉得,有了大语言模型,人形机器人就指日可待,但现实是,现在的机器人根本没法脱离遥控器,离“像保姆一样听话做事”还差十万八千里。

  第一个问题数据采集难,要训练机器人,得先给它喂够海量的交互数据,业内预测至少需要百万小时的真实物理场景数据。

  但三种主流采集方式全卡壳:真人动作捕捉太慢,戴着VR设备、柔性手套同步关节角度,一小时能采几十组数据就不错,百万小时得攒到猴年马月。

  视频捕捉精度有限,人手有27个自由度,现有机械手根本达不到,拍下来的动作数据没法落地。

  仿真环境再逼真,也复刻不了现实里的摩擦力、关节磨损、材质差异,实验室里能成的动作,放到真实工厂就失灵。

  第二,硬件泛化难,就算攒够了数据,机器人也没法通用,同样的机器人,在A工厂能抓零件,到B工厂换个地板材料就抓不住,同一家公司的同款机械手,换一只就认不出抓取参数。

  有从业者直言,就算训练好的机械手,换个同品牌新的都没法用,硬件标准化的缺口大到离谱。

  核心逻辑错位。聊天机器人和人形机器人根本不是一回事,前者靠海量文本数据就能训练,答案哪怕有偏差也能调整,后者需要的是每一个动作都精准,倒杯水就得刚好举到嘴边,差一厘米都不行。

  前者可以靠概率猜词,后者必须理解物理规则,这也是为什么谷歌RT2之后,行业跑了三年还是没摸到真正的痛点。

  第一波是大厂玩家,主攻世界模型。他们要让AI不光读文字、看图片,还要能感知触觉、力觉,真正理解真实世界的物理规则。

  英伟达、OpenAI、谷歌DeepMind、字节、阿里是目前仅有的在做这件事的玩家。

  第二波是学者阵营,喊着要新范式革命,以杨立坤、李飞飞为代表,他们认为现在的大语言模型只是概率游戏,根本不算真正的智能,光靠砸数据没用。

  他们主张让AI从“背数据”转向“理解世界”,比如李飞飞让AI在三维虚拟环境里主动探索,杨立坤让AI通过猜照片里的隐藏细节来学习世界结构。

  第三波是创业团队,主打细分场景硬啃,他们没钱烧算力,也不想搞空泛的理论,就盯着一个具体问题下手:有人造灵巧手,比如新加坡一家中国创业公司在2026年CES展出的22自由度灵巧手,把行业水平拉高了一截。

  有人降数据采集成本,把真人捕捉的效率翻了好几倍,还有人只做细分场景,比如专门做家务整理、产线包装的机器人,先把一个场景做透,再慢慢拓展。

  目前业内估算,人形机器人离真正成熟,总进度大概只有0.2%。就像登陆火星一样,这个赛道不是一朝一夕能成的。

  但过程里已经带出了一堆红利:动作捕捉技术变得更成熟,AI视频生成的质量突飞猛进,自动驾驶靠世界模型提升了判断能力,机器人核心零部件的成本也被砸下来了一半,工业机械臂的门槛大大降低。

  马斯克常说特斯拉80%的市值来自Optimus,但现在连量产都卡在了产能和算法上。

  人形机器人的热度从来不是假的,但大家都得承认,它还在第一关“打数据小怪”就卡了壳。不管最后什么时候能造出能端茶倒水的保姆机器人,这趟探索已经让整个科技圈向前迈了一大步。返回搜狐,查看更多九游会九游会

咨询电话
13647210798