外行看能跳舞,内行看懂两个核心突破:一是不用提前写死代码,人类说句话、指个动作,机器人就能照着完成。
二是用上了大语言模型的Transformer训练逻辑,把看画面、听指令、做动作三者打通。
之后全球科技圈沿着这条VLA路线月加州伯克利发布UP-TO模型,6月斯坦福、伯克利和丰田联合推出OpenVLA,年底创业公司PhysicalIntelligence放出优化版模型“π0”。
π0把轻量化部署、降低门槛做到极致,还开源了核心代码,像2014年特斯拉开源新能源汽车一样,彻底点燃了资本热情。
很多人觉得,有了大语言模型,人形机器人就指日可待,但现实是,现在的机器人根本没法脱离遥控器,离“像保姆一样听话做事”还差十万八千里。
第一个问题数据采集难,要训练机器人,得先给它喂够海量的交互数据,业内预测至少需要百万小时的真实物理场景数据。
但三种主流采集方式全卡壳:真人动作捕捉太慢,戴着VR设备、柔性手套同步关节角度,一小时能采几十组数据就不错,百万小时得攒到猴年马月。
视频捕捉精度有限,人手有27个自由度,现有机械手根本达不到,拍下来的动作数据没法落地。
仿真环境再逼真,也复刻不了现实里的摩擦力、关节磨损、材质差异,实验室里能成的动作,放到真实工厂就失灵。
第二,硬件泛化难,就算攒够了数据,机器人也没法通用,同样的机器人,在A工厂能抓零件,到B工厂换个地板材料就抓不住,同一家公司的同款机械手,换一只就认不出抓取参数。
有从业者直言,就算训练好的机械手,换个同品牌新的都没法用,硬件标准化的缺口大到离谱。
核心逻辑错位。聊天机器人和人形机器人根本不是一回事,前者靠海量文本数据就能训练,答案哪怕有偏差也能调整,后者需要的是每一个动作都精准,倒杯水就得刚好举到嘴边,差一厘米都不行。
前者可以靠概率猜词,后者必须理解物理规则,这也是为什么谷歌RT2之后,行业跑了三年还是没摸到真正的痛点。
第一波是大厂玩家,主攻世界模型。他们要让AI不光读文字、看图片,还要能感知触觉、力觉,真正理解真实世界的物理规则。
英伟达、OpenAI、谷歌DeepMind、字节、阿里是目前仅有的在做这件事的玩家。
第二波是学者阵营,喊着要新范式革命,以杨立坤、李飞飞为代表,他们认为现在的大语言模型只是概率游戏,根本不算真正的智能,光靠砸数据没用。
他们主张让AI从“背数据”转向“理解世界”,比如李飞飞让AI在三维虚拟环境里主动探索,杨立坤让AI通过猜照片里的隐藏细节来学习世界结构。
第三波是创业团队,主打细分场景硬啃,他们没钱烧算力,也不想搞空泛的理论,就盯着一个具体问题下手:有人造灵巧手,比如新加坡一家中国创业公司在2026年CES展出的22自由度灵巧手,把行业水平拉高了一截。
有人降数据采集成本,把真人捕捉的效率翻了好几倍,还有人只做细分场景,比如专门做家务整理、产线包装的机器人,先把一个场景做透,再慢慢拓展。
目前业内估算,人形机器人离真正成熟,总进度大概只有0.2%。就像登陆火星一样,这个赛道不是一朝一夕能成的。
但过程里已经带出了一堆红利:动作捕捉技术变得更成熟,AI视频生成的质量突飞猛进,自动驾驶靠世界模型提升了判断能力,机器人核心零部件的成本也被砸下来了一半,工业机械臂的门槛大大降低。
马斯克常说特斯拉80%的市值来自Optimus,但现在连量产都卡在了产能和算法上。
人形机器人的热度从来不是假的,但大家都得承认,它还在第一关“打数据小怪”就卡了壳。不管最后什么时候能造出能端茶倒水的保姆机器人,这趟探索已经让整个科技圈向前迈了一大步。返回搜狐,查看更多九游会九游会