特斯拉的「数据飞轮」为什么在机器人上会失效——以及谁会是真正的受益者
Physical AI

特斯拉的「数据飞轮」为什么在机器人上会失效——以及谁会是真正的受益者

谢晨 (光轮智能创始人兼CEO) | 主持人: 张小珺
2026年3月30日小宇宙
返回首页

金句精选

最有效的数据,是先失败再成功的数据——因为它更接近人的学习方式。

特斯拉数据飞轮的底层逻辑,在机器人上就不成立,最多的机器人数据,一定不是本体商能提供的。

数据金字塔的中层和底层都不依赖本体,这意味着机器人大脑不会从本体那里长出来。

数据商和大模型厂商将越来越共生——一个需要更好的评测,另一个需要更好的反馈。

只有以系统为中心的私教体系,才能在足够大的规模上实现言传身教,让零样本泛化成为现实。

特斯拉是世界上最伟大的数据公司之一。

不是因为它的工程师最聪明,而是因为它的逻辑最简单:在路上跑的车越多,收回来的驾驶数据就越多,大脑就训练得越好,车就卖得越好,路上跑的车就越多。

这个飞轮一旦转起来,后来者就很难打破。

但是谢晨在接受张小珺访谈时说了一句话,让整个逻辑停住了——

「特斯拉的数据闭环逻辑,在机器人这件事上,底层就不成立。」


先把特斯拉那套逻辑说清楚。

Autopilot和FSD能做到今天这一步,核心不是某一个算法突破,而是数据引擎(Data Engine)——特斯拉造的每一辆车,都是一个数据采集终端。

几百万辆车在路上跑,司机开车的每一秒都在把数据传回云端,云端的大脑不断被更新,更好的自动驾驶能力再被推送到车上。车越多,数据越多,大脑越好,数据越多,如此循环。

这是一种「以本体为中心」的数据逻辑:本体商(整车厂)因为部署了最多的本体,天然就是最大的数据拥有者,也就是最强的大脑训练者。


在机器人领域,这件事为什么行不通?

谢晨给出了一个很干净的答案:现在世界上没有、也不可能快速有「几百万台机器人部署在端侧执行任务」。

如果用遥控操作来采集数据,成本高得不可规模化。如果依赖机器人自主执行,泛化能力又远没到那一步——恶性循环。

「这就意味着,机器人最多的数据,一定不是本体商能提供的。」

既然本体商无法垄断数据,「本体商 = 最好的大脑训练者」这个等式就不成立。


那机器人的数据应该从哪里来?

谢晨提出了一个概念:数据金字塔

从上到下分三层:

最顶层,是真实机器人采集的数据。数量最少,但质量最高、也最难获取。

中间层,是仿真数据。通过在虚拟环境中运行机器人来生成,可以规模化产出,也不依赖硬件本体。

最底层,是互联网数据和人类第一视角数据。数量最多,但和机器人任务的相关性最弱。

关键的洞察是:中间层和底层的数据,都不依赖本体。这意味着,机器人产业的数据供给逻辑,更接近于大语言模型,而不是自动驾驶。

「机器人大脑,大概率不会是从本体那里长出来的。」


但还有一个更反直觉的地方。

大多数人以为,训练机器人最好的数据,应该是「完美执行」的数据——机器人把每一步都做得很完美,记录下来,反复学习。

谢晨和他的客户在实践中发现:这是错的。

「最有效的数据,是先失败、再成功的数据。」

他举了一个例子:机器人在做披萨,从容器里夹蘑菇片,没夹稳,蘑菇掉到桌上,机器人把它捡起来,继续往前。

这个「出错-纠正」的数据,训练出来的模型,泛化能力远高于「一直完美」的数据。

原因很朴素:这更接近人类的学习方式。人不是通过看一千个完美示范学会骑车的,而是通过自己摔跤、爬起来、再摔才学会的。模型也是一样——它需要见过「错了怎么办」,才真正学会「怎么不出错」。


这就牵出了一个更深的问题:机器人时代,数据公司的角色是什么?

谢晨认为,机器人产业会形成一个四方协作的格局:

大模型公司(做通用大脑)、本体公司(做硬件本体)、数据公司(做数据引擎)、场景公司(拥有真实部署场景,比如工厂、医院、农业集团)。

在自动驾驶时代,这四个角色可以高度合并在一家公司里——特斯拉同时是本体商、数据商、大脑商和场景商。

但在机器人时代,这四者大概率无法合并。

谢晨把这个拆分总结得很清楚:大模型公司会基于本体无关的数据训练大脑;本体公司会基于大模型的大脑来做部署微调;场景公司(比如大型OEM、医疗集团)会根据自己的需求选择硬件和大脑的搭配;而数据公司,会成为整个系统里最像「老师」的那个角色——不是被动提供标注,而是主动评测、出题、反馈,驱动整个系统进化。

「数据商和大模型厂商之间会越来越共生。因为大模型需要数据商提供更有效的评测,而数据商也需要大模型给它更好的验证反馈。」


最后还有一个关于「什么是数据」的认知升级。

谢晨用了一个贯穿整集的比喻:数据等于教育。

早期的数据就像买了一批教材发给学生,静态、一次性、没有互动。

后来到了Scale AI工业化数据生产的阶段,就像批量化教育——效率提升了,但老师和学生之间依然没有真正的了解。

而现在,顶级大模型训练所需要的数据,更像是一位真正了解学生的老师:基于对模型当前能力的评估,出有针对性的难题,给出个性化反馈,帮助模型发现自己的盲区。

时薪超过一百美元的数学金牌、顶级工程师、律师和医生,已经开始出现在大模型的数据供应链里。

谢晨认为,机器人数据迟早会走到这一步——只不过「老师」不再是人,而是一个「以系统为中心的私教体系」,可以以足够大的规模提供言传身教。

只有这样,才能真正实现零样本泛化——让机器人面对从没见过的任务,也能做出来。

那才是大脑真正成熟的那一天。