自变量机器人王潜:具身智能大模型没法抄国外作业

文|王方玉

编辑|苏建勋

王潜有一副知识分子的长相,讲话语调平和,但一旦聊起具身智能,他便流露出 " 杀气腾腾 " 的一面:

" 如果就奔着跟随别人的念头,技术天然就落在下风,是很没出息的。"

" 创业这件事是需要一些决心的,如果你从一开始就找好了退路,你的心态就不对了。"

机器人,是王潜最执着的事。他本硕毕业于清华大学,博士就读于美国南加州大学,曾在美国创立量化基金公司。但在做量化之后,他却 " 好一阵子整晚睡不着,后悔没把机器人事业做下去 "。

△图源:企业授权

2023 年,王潜解散基金回国,在深圳创立 " 自变量机器人 "。

自成立起不到一年半时间,自变量机器人已完成 7 轮融资,累计融资金额超 10 亿元。5 月 12 日,智能涌现独家报道其拿到美团独投的数亿元新一轮融资。

2023 年是国内具身智能赛道肇兴之年,英伟达创始人黄仁勋首次预言具身智能将是下一个科技浪潮,银河通用、智元机器人均在这一年成立。

相较于这两家,自变量机器人前期并未获得很大声量。但随着不断获得新融资,其正逐渐走向具身智能舞台的中心。

一位双币机构投资人告诉智能涌现,从融资金额看,目前国内人形机器人创业公司已经形成了鲜明的梯队。第一梯队的公司有三家:宇树科技、智元机器人和银河通用,融资金额都在 15 亿元以上。自变量机器人融资金额超过 10 亿元,已经从二线企业进入准一线之列。

和当初的 AI 大模型一样,国内具身智能领域也存在着看好和看空两种截然对立的态度。一边是朱啸虎的看空—— " 现在是个人形机器人就会翻跟头,但商业化在哪里?"。另一边,投资机构持续砸下重金,创业公司正不断加快量产步伐,并给出乐观的增长预期。

王潜是技术信仰派的典型代表。

他创立的自变量机器人自 2023 年公司成立之日起就坚定选择了 " 端到端统一 VLA 大模型 " 的技术路线,并以每 2-3 个月更新一版模型的速度推进研发。

一年后,随着美国公司 Physical Intelligence(PI)的模型发布,VLA 成为了行业的主流路线。

在大部分其他厂商的模型还在执行简单的 Pick&Place 操作(即 Pick 抓取、Place 放置)时,自变量机器人研发的 WALL-A 模型已经可让机器人完成例如衣物处理、收纳整理、线束整理等多项复杂精细操作。

△自变量的机器人在 GAIE2025 展会现场自主制作刨冰 图源:企业授权

市面上看空的观点认为 " 通用具身智能还太早,商业化不清晰。" 而王潜眼中的行业发展进程图则要快上许多。

他预计类 GPT-3 水平的具身智能大模型有望在一年左右出现。具身智能真正的商业化落地周期,也会在未来一到两年内逐步展开。

目前具身机器人的商业化场景主要来自于两个市场:科研教育和迎宾表演。但在王潜看来,这两个市场总体来讲规模相对较小,对于行业的长期发展意义有限,不能当作最终面向的目标市场。对于人形机器人进工厂干简单重复性工作,他更是直言 " 那其实就是一个 PR(公关)行为 "。

王潜认为要实现真正有价值的商业化,必须要依靠具身智能模型的泛化能力提升。

眼下,自变量也并不急于推进商业化,而是把重心放在模型能力提升上。公司有三分之二的支出投向模型及其相关业务。

" 不谦虚地说,自变量就是处于国内具身智能模型领先地位的,投资人对于第一名天然有一些优待。大家相信我们能够达到非常高的 upside,希望我们更加专注通用具身智能模型的大目标。" 王潜自信地说道。

以下是《智能涌现》和自变量机器人创始人王潜的对话。内容略经编辑:

" 一体式的端到端模型,发展天花板更高 "

《智能涌现》:最近的半年时间,公司在模型能力层面上有什么比较重要的新进展?

王潜:我们进展速度还是很快的,平均每 2-3 个月会更新一版模型。

以前自变量的模型是一个纯粹输出 action(动作)的模型,是多模态进,单模态出。从去年 10、11 月开始,我们开始做 any-to-any 的模型,是多模态进,多模态出,除了输出 action(动作),也可以输出语言和视觉等。

在全模态融合的框架下,自变量也做很长的 COT(思维链)。差不多就在这两次融资之间,我们把思维链做出来了。

今年 3 月,Google Gemini robotics 公布了他们的进展,也是类似的做法:any-to-any 和 COT。最近 Physical Intelligence(PI)新发布的 π 0.5 也做了类似的事情。所以实际上我们非常早地就预判到了技术进步的方向,和 PI 等国外玩家做这个事的时间差不多。

所以我们敢说我们的模型水平基本上和 PI、和 google 在同一个水平线上。因为的确是在相近的时间做出了类似的事情,达到了类似的效果。而国内厂商普遍才刚起步要往这个方向去做,进度上就会差得比较多了。

《智能涌现》:现在统一的端到端 VLA 大模型 ( Vision-Language-Action Model ) 已经成为主流技术路线了吗?

王潜:对,这很大程度是受到了去年十月份 PI 的新模型发布的影响,大家会看到端到端是一个好的方向,是一个大趋势。

现在基本上不管信不信,大家至少会打这个旗子。但实际上做得好与坏,或者说有没有真的去做端到端,还是有较大差异。同时,你会发现市场上有很多的所谓的 " 定义学 ",重新 " 发明 " 什么叫端到端。

补充一下,端到端路线也有两种不同的做法,一类是像 Figure 的两层模型路径:high level 的 VLM 来做 reasoning、planning,low level 的 VLA 来做实际的动作生成部分;另一类做法就是不作区分,一体式的端到端。

我们早期也尝试过两层模型,但发现单层模型的天花板明显高于两层的,所以自变量倾向于统一的端到端范式。

△图源:企业授权  

《智能涌现》:和端到端并行的技术路线是什么?

王潜:和它并行的就几种,现在其实大家已经不怎么做了。主要是通过三维视觉或者其他的方法做感知,再加上一些传统控制,做一些 Pick&Place 操作(指抓取、放置)。

以上方式可能在某些场景,比如说特别简单的 Pick&Place 任务,包括上一代的工业自动化的场景,但这明显不是我们要追求的。Figure 和波士顿动力之前都是这种方式,现在已经转向端到端了。

《智能涌现》:现在自变量的具身智能模型能力,如果类比 AI 大模型,处于哪个阶段?

王潜:我觉得还处于 GPT-2 的阶段,GPT-3 当时有一些明显的特征,是在我们今天的模型上没有足够的 scale 去达到的。业内像 PI 和 google 的进度也差不多,这是由 Scaling Law 的客观规律决定的。

《智能涌现》:国内具身智能大模型要实现商业化还需要多长时间。

王潜:其实基本上快的话就是一年左右的时间点,慢的话可能就是两年左右。我指的是真正的商业化,能够实际意义上的让用户愿意去付费。当然商业化也分不同阶段,要进入 C 端,比如家庭的保姆机器人或者室内服务机器人,时间要更慢一些,可能是 3-5 年。

大家普遍是会高估短期的技术进步,低估中长期的技术进步——它比大家想象的会快一些。

《智能涌现》:提到具身模型训练,大家都会说数据短缺是个瓶颈,你们的数据够吗?

王潜:数据是一个有时间线的问题。比如一开始对具身模型没有任何感知、没有理解的情况下,大量收集数据未必是正解,可能收集到的大部分数据是没有用的,或是低质量的。所以对具身智能有多少了解,其实就应该匹配多大的数据规模。

提升数据收集规模只是一方面,怎么把数据质量做好,深刻地理解需要什么样的数据则是另一方面。自变量之前做了很多后者的工作,这样是更高效的方式。

目前一些开源的数据集、第三方数据,数据质量普遍不过关,如果实际去用此类数据训练,模型效果不会特别好,这些数据可以作为补充,但不能完全依赖,目前我们的数据主要靠自己采集。

《智能涌现》:这一波具身智能热潮,国内创企普遍花钱还挺谨慎的,好像在为冷静期做储备,你怎么看?

王潜:首先自变量花钱还是比较谨慎的,不该花的钱绝对不花。我们做的是长线的大事,需要为行业可能的波动做准备。

但另一方面,该花的钱还是要花,不花钱的确做不出东西来。如果一直等国外的开源成果来 follow 或抄作业,实在没出息,而且根本无法实现通用机器人的最终目标。

信心问题、过冬问题,其实反映出来的是能力不足,所以信心不足。如果真的有足够的能力和判断,是不会这么去想这个问题的,最初的团队基因和能力水平会决定很多战略上的判断和看问题的方式。

说到底,行业的波谷为什么会来?是因为行业没有做出实际成果来,做出来了,就自然会有一个波峰。为什么不去做引领波峰的公司,引领投资热潮,而要被动的适应环境呢?我觉得这才是一个创业者应该有的心态。

" 部分商业化场景的价值和意义存疑 "

《智能涌现》:投资人都是怎么评估自变量的技术能力?靠 DEMO 视频吗,还是现场真机演示?

王潜:我们都是真机演示,自变量从成立第一天,就坚持真机演示是第一位的。视频有太多可以造假的方式了。现场才能够看到模型真实的表现,甚至于需要去现场和机器人互动,进行一些人为干扰,看看模型在各种各样的极限情况下会有什么样的表现,这才真正能体现模型的水平。

《智能涌现》:到现在这个估值体量,投资人现在会对自变量有商业化的要求吗?

王潜:分投资人。有的投资人比较看重具身智能模型能力可以达到多高的上限,另一部分投资人比较看重商业化,不同投资人的偏好风格差距还是挺大的。

自变量有些特殊,不谦虚地说,我们就是处于国内具身智能模型领先地位的,投资人对于第一名天然是有一些优待。大家相信我们能够达到非常高的 upside,所以不会要求我们为商业化而商业化,大家更希望我们去做 " 有价值 " 的商业化,希望我们更加专注通用具身智能模型的大目标。

《智能涌现》:你们现在还没有发布本体产品吧,怎么达到另一部分投资人商业化的要求。

王潜:我们其实现在已经有本体产品了,只是还没正式对外大规模发布。而且我们的本体产品已经有实际的销售和落地了,主要应用在偏服务业的场景。除了目前的型号之外,我们还会再推出新的本体。

《智能涌现》:现在具身智能进入服务业技术成熟了吗?

王潜:我们和种子客户现在还处于 POC(概念验证)的阶段,今年年底到明年年初还是很有希望,当然目前也还需要做大量的工程工作。而且我们不会局限于简单的 Pick&Place 操作(即 Pick 抓取和 Place 放置)。

过于简单的 Pick&Place 操作,对于具身智能模型的进一步训练和发展没有帮助,上一代技术其实也完全可以实现,甚至纯自动化的技术也能满足。自变量还是希望能够做一些以前所有技术都没办法覆盖的,足够多样、足够复杂、足够开放的场景。

《智能涌现》:今年底或明年初就完成 POC 进入实际应用的话,会是一个什么样的利润率水平。

王潜:传统的服务机器人能做的事情比较单一,而我们的机器人是通用的,机器人能力不同,创造的价值不同,市场竞争态势和客户的付费意愿也不同。当然早期阶段盈利并不是最重要的目标,主要还是希望通过理解实际场景的需求打磨产品。

《智能涌现》:同行出货更多的在科研教育和商城迎宾这俩场景,这两个场景更成熟吧。

王潜:虽然这也是在做商业化,但这两个场景商业化的价值和意义还有待商榷,感觉更多可能是为了满足投资人对于商业化的要求,而不是真的相信这件事情可以通往真正想要去的大的目标(通用具身智能)。

科研和迎宾这两个场景本身市场总规模不大,不可能当做具身智能最终面向的目标市场。这两个场景可以作为 " 沿途下蛋 " 的产物,但如果把它作为一段时间的主要方向,就可能偏离最终的目标。

《智能涌现》:这两个场景确实规模不大,但是不是也有可能和其他小场景共同造出一个不大不小的市场来,足够让一家公司做到上市体量,比如某公司的投资方说过," 仅来自股东方的需求可能就创造出几万台机器人的销量 "。

王潜:问题是这种上市有什么意义呢?这几万台做完了之后呢?不能说这几万台的需求做完之后,就不做生意了。

《智能涌现》:如果具身智能比 AGI 更难,永远实现不了,抓住科研和迎宾这种小市场,是不是一种务实?

王潜:我觉得大可不必,如果创业者不相信具身智能,为什么要去做呢?如果认为具身智能是非常遥远、几十年后才会出现的事情,那根本就不应该现在进入这一领域。

《智能涌现》:你怎么看工厂场景?最近 Figure 被外媒报道,Figure 的人形机器人在宝马工厂里打工的事情有夸大的嫌疑。

王潜:现在人形机器人进工厂,能落地的事情非常有限,其实就是一个 PR(公关)行为。

实际工厂对速度和准确率有很高的要求,很多公司目前在做的任务其实还是更适合用上一代技术来实现。

比如流水线相对来说,还是一个比较封闭、固定的环境,反而不利于发挥具身大模型所追求的复杂操作,开放、随机、动态环境和场景、泛化性的要求等,具身机器人在一般的工厂场景里也学不到什么,场景太简单了,对于模型能力提升帮助非常有限。

自变量更倾向于选择复杂的场景,复杂场景才能真正促进模型能力有效提升,也是真正意义上存在客户需求、用户愿意买单、替代完成人类不愿意做的事情的领域。

经济学中一直有所谓是需求创造供给,还是供给创造需求的争议,在具身智能这一 Moonshot 领域,是很明显的供给创造需求。

" 对于大部分软硬一体的东西来说,开源都是很差的一种模式。"

《智能涌现》:美国同行的估值更高,资金更多,中美之间的具身智能模型水平是不是有差距?

王潜:国内的整体水平相比于国外肯定还是差的,而且差得不少。我们重点关注的国外同行包括 Physical Intelligence(PI)、google、特斯拉。

但就目前来说,我们还是有很大的机会能够和美国在同一个水平线上去发展。甚至我们有机会在今年或者明年超过他们。

我觉得大家会有觉得国内做的不如美国的心态,可能和过去长期处于 " 跟随者 " 的角色有关。但在具身智能的发展实际中,没必要过于自我怀疑。以自变量为例,我们能做到的模型水平已经能够和 PI 等国际顶级团队在同一个水平线上,在部分指标上甚至实现了超越。

《智能涌现》:第一梯队的 PI 已经开源了机器人通用基础模型 π 0,这会不会把大家的水平拉平?

王潜:PI 开源到现在差不多半年的时间,国内有一些企业也尝试在其基础上进行微调,但从实际效果来看,并不会明显优于其他开源方案,更无法完整复现 PI 团队在其自有机器人本体上的表现。实际上,跨本体适配的问题依然是一个重要挑战。

《智能涌现》:PI 的 π 0 微调之后,可以应付什么样的商业化场景?

王潜:目前来看,在新本体上微调后 π 0 的能力会有比较大的损失,在商业化场景中的实际应用比较有限。实际上 PI 之所以选择开源,很大程度上在于其自身难以直接商业落地。PI 本身并不做硬件,需要依赖其他企业将模型和硬件结合来落地,所以它才会采取开源模型这样的方式。

《智能涌现》:和 AI 大模型创业一样,不贸然投入,等国外先进模型开源后再跟随,是不是也不失为一种好策略?

王潜:这乍听上去像是一个好策略。但是第一,靠抄能不能抄得到是个问题,具身智能不像语言模型可以蒸馏,它复现的难度很大。复现开源模型过程中,由于之前没做过,该踩的坑还是要踩,其实并没有节省多少时间。

其次,这么做整个公司的精气神儿就没有了。如果自己都不相信自己能做成,那凭什么让和你一起做这件事的人相信公司可以。

去做一件有意义的事情,是需要专注、信仰和创造力的。如果靠等待和抄作业,在科技创新领域,就只能是做一些很平庸的事情,永远成就不了一家伟大的公司。

《智能涌现》:具身智能有可能跟 AI 大模型一样形成开源和闭源两个阵营吗?

王潜:本质上,对于软硬一体的领域来说,开源是一个伪命题,至少不是商业化的命题。之前的无人机、自动驾驶等,在发展的过程中都有大量的开源,但最终所有的开源都没能成功。

大家现在对开源会有一些期待,或者说比较敏感,本质上是因为人们看到在语言模型赛道,开源会有一些好的效果。但软硬一体的东西和纯软件不一样,软件如语言模型,模型本身即产品,部署后可以立刻使用,很自然地获得 C 端的影响力。

但是具身智能模型还需要搭配硬件才能成为产品,和人交互的界面、应用的实体是硬件,所以很难获得广泛意义上的声量,目前只能影响学术界、极客圈子以及行业内群体。

比如 π 0 模型在去年发布的时间点绝对是当时世界领先的模型,但它在大众端并没有激起什么水花。所以具身智能的商业化肯定不能靠开源来实现。

第二,具身智能这个领域还是有特殊性。比如 A 实验室开源了一个具身智能模型,全世界没有任何一个实验室能够 100% 的复现出来开源实验室在他们自己环境下能做到的东西。不要说完整的复现,哪怕是大部分的复现也都很难实现。语言模型可以去蒸馏,但在硬件领域,不可能脱离机器人把数据蒸馏出来。