降噪 - AI精选内容平台

特斯拉是世界上最伟大的数据公司之一。

不是因为它的工程师最聪明，而是因为它的逻辑最简单：在路上跑的车越多，收回来的驾驶数据就越多，大脑就训练得越好，车就卖得越好，路上跑的车就越多。

这个飞轮一旦转起来，后来者就很难打破。

但是谢晨在接受张小珺访谈时说了一句话，让整个逻辑停住了——

「特斯拉的数据闭环逻辑，在机器人这件事上，底层就不成立。」

先把特斯拉那套逻辑说清楚。

Autopilot和FSD能做到今天这一步，核心不是某一个算法突破，而是数据引擎（Data Engine）——特斯拉造的每一辆车，都是一个数据采集终端。

几百万辆车在路上跑，司机开车的每一秒都在把数据传回云端，云端的大脑不断被更新，更好的自动驾驶能力再被推送到车上。车越多，数据越多，大脑越好，数据越多，如此循环。

这是一种「以本体为中心」的数据逻辑：本体商（整车厂）因为部署了最多的本体，天然就是最大的数据拥有者，也就是最强的大脑训练者。

在机器人领域，这件事为什么行不通？

谢晨给出了一个很干净的答案：现在世界上没有、也不可能快速有「几百万台机器人部署在端侧执行任务」。

如果用遥控操作来采集数据，成本高得不可规模化。如果依赖机器人自主执行，泛化能力又远没到那一步——恶性循环。

「这就意味着，机器人最多的数据，一定不是本体商能提供的。」

既然本体商无法垄断数据，「本体商 = 最好的大脑训练者」这个等式就不成立。

那机器人的数据应该从哪里来？

谢晨提出了一个概念：数据金字塔。

从上到下分三层：

最顶层，是真实机器人采集的数据。数量最少，但质量最高、也最难获取。

中间层，是仿真数据。通过在虚拟环境中运行机器人来生成，可以规模化产出，也不依赖硬件本体。

最底层，是互联网数据和人类第一视角数据。数量最多，但和机器人任务的相关性最弱。

关键的洞察是：中间层和底层的数据，都不依赖本体。这意味着，机器人产业的数据供给逻辑，更接近于大语言模型，而不是自动驾驶。

「机器人大脑，大概率不会是从本体那里长出来的。」

但还有一个更反直觉的地方。

大多数人以为，训练机器人最好的数据，应该是「完美执行」的数据——机器人把每一步都做得很完美，记录下来，反复学习。

谢晨和他的客户在实践中发现：这是错的。

「最有效的数据，是先失败、再成功的数据。」

他举了一个例子：机器人在做披萨，从容器里夹蘑菇片，没夹稳，蘑菇掉到桌上，机器人把它捡起来，继续往前。

这个「出错-纠正」的数据，训练出来的模型，泛化能力远高于「一直完美」的数据。

原因很朴素：这更接近人类的学习方式。人不是通过看一千个完美示范学会骑车的，而是通过自己摔跤、爬起来、再摔才学会的。模型也是一样——它需要见过「错了怎么办」，才真正学会「怎么不出错」。

这就牵出了一个更深的问题：机器人时代，数据公司的角色是什么？

谢晨认为，机器人产业会形成一个四方协作的格局：

大模型公司（做通用大脑）、本体公司（做硬件本体）、数据公司（做数据引擎）、场景公司（拥有真实部署场景，比如工厂、医院、农业集团）。

在自动驾驶时代，这四个角色可以高度合并在一家公司里——特斯拉同时是本体商、数据商、大脑商和场景商。

但在机器人时代，这四者大概率无法合并。

谢晨把这个拆分总结得很清楚：大模型公司会基于本体无关的数据训练大脑；本体公司会基于大模型的大脑来做部署微调；场景公司（比如大型OEM、医疗集团）会根据自己的需求选择硬件和大脑的搭配；而数据公司，会成为整个系统里最像「老师」的那个角色——不是被动提供标注，而是主动评测、出题、反馈，驱动整个系统进化。

「数据商和大模型厂商之间会越来越共生。因为大模型需要数据商提供更有效的评测，而数据商也需要大模型给它更好的验证反馈。」

最后还有一个关于「什么是数据」的认知升级。

谢晨用了一个贯穿整集的比喻：数据等于教育。

早期的数据就像买了一批教材发给学生，静态、一次性、没有互动。

后来到了Scale AI工业化数据生产的阶段，就像批量化教育——效率提升了，但老师和学生之间依然没有真正的了解。

而现在，顶级大模型训练所需要的数据，更像是一位真正了解学生的老师：基于对模型当前能力的评估，出有针对性的难题，给出个性化反馈，帮助模型发现自己的盲区。

时薪超过一百美元的数学金牌、顶级工程师、律师和医生，已经开始出现在大模型的数据供应链里。

谢晨认为，机器人数据迟早会走到这一步——只不过「老师」不再是人，而是一个「以系统为中心的私教体系」，可以以足够大的规模提供言传身教。

只有这样，才能真正实现零样本泛化——让机器人面对从没见过的任务，也能做出来。

那才是大脑真正成熟的那一天。

特斯拉的「数据飞轮」为什么在机器人上会失效——以及谁会是真正的受益者