特斯拉 Optimus 产线停摆的消息,刚刷爆科技圈。这家曾把人形机器人吹成未来十年核心赛道的公司,直接封存了千余台下线机型。火了三年的人形机器人行业,到底为啥连一杯水都端不稳?
这一波人形机器人的热潮,起点是 2023 年 7 月谷歌推出的 RT-2 模型。不少人只看到机器人跳舞的酷炫镜头,没看懂这是行业的真正拐点。
之前控制机器人要么靠提前写代码,要么靠遥控器一步步指挥,而 RT-2 让机器人只要看画面、听指令,就能自己完成动作,比如把香蕉放到德国国旗上。
RT-2 的 VLA 模型思路,很快点燃了全球科技圈。伯克利、斯坦福、丰田联合推出 OpenVLA,创业公司 Physical Intelligence 的 Palm 更是把技术开源,大幅降低了入门门槛。
资本闻风而动,一场针对人形机器人的大跃进正式开启。但这场冲锋很快撞上了南墙。人形机器人的核心卡点,从来不是算法,而是数据。
目前主流的数据采集有三种方式:真人戴 VR 设备同步动作、摄像头记录手部动作、虚拟环境模拟。但每一种都有致命缺陷。
真人采集效果最好,但速度极慢。训练一个机器人需要百万小时的多样性物理数据,真人一天能采集的量微不足道,猴年马月才能凑够?
靠摄像头拍手部动作?人的手腕手指有 20 多个自由度,机械臂根本达不到那么灵活,拍了也白拍。
虚拟环境再逼真,也复刻不了真实世界的摩擦力、关节磨损这些细节。仿真里跑通的动作,放到现实里就抓不住杯子,根本没法用。
在 A 工厂训练好的机器人,换到 B 工厂的地板材料变了、光照不一样,就连开门都打不开。同一个公司的两只机械手,换一下都可能失灵。
工业界甚至有个玩笑:今天拍的开冰箱视频,明天换个冰箱就识别不出来。面对这些死穴,行业分成了三路人马。
第一路是大厂主导的世界模型。简单来说就是让 AI 看懂文字、图片、视频,融合所有感官数据,彻底认识真实世界,再通过机器人落地。
目前只有五家大厂能玩这个游戏:英伟达、OpenAI、谷歌 DeepMind、字节、阿里。英伟达甚至推出 WAM 模型,把技术研究推到了新高度。
第二路是学者们提出的新范式。以杨立坤、李飞飞为代表的顶级学者,直言大语言模型只是 “猜下一个词” 的概率游戏,根本不懂真实世界。九游会J9
他们主张放弃海量数据堆料,让 AI 主动理解世界,用小数据实现高效学习。
第三路是创业者们的细分破局。他们不跟大厂抢算力,也不跟学者搞理论,而是扎进具体问题里死磕:
有人专攻机械手,把自由度做到极致;有人降低数据采集成本;有人放弃全人形机器人,先专攻餐具收纳这类单一家务。
即便各路高手各显神通,距离造出能当保姆的人形机器人,还有极其遥远的距离。行业内部评估,目前整体进度大概只有 0.2%。
马斯克曾说特斯拉 80% 的市值来自人形机器人,2025 年计划生产 5000 台 Optimus,到年中只造出 1000 多台就停了产线,这也是整个行业的缩影。但这场探索并非全无收获。
动作捕捉技术原本只用于影视游戏,如今因为机器人热潮变得更快更成熟。AI 生成视频的质量飞跃式提升,背后就是大厂卷世界模型的功劳。
更不用说机器人核心零部件的成本被大幅压缩,伺服电机从几千元降到几百元,减速器、传感器的性能提升、价格下降,九游会J9让工业机械臂、智能仓库的门槛大幅降低。
人形机器人就像登陆火星,看起来遥不可及,但探索的过程会倒逼整个科技行业进步。
游戏、自动驾驶、硬件制造这些领域,已经率先尝到了甜头。与其嘲笑人形机器人还很鸡肋,不如看看它到底能带我们走到哪一步。返回搜狐,查看更多