特斯拉是世界上最伟大的数据公司之一。
不是因为它的工程师最聪明,而是因为它的逻辑最简单:在路上跑的车越多,收回来的驾驶数据就越多,大脑就训练得越好,车就卖得越好,路上跑的车就越多。
这个飞轮一旦转起来,后来者就很难打破。
但是谢晨在接受张小珺访谈时说了一句话,让整个逻辑停住了——
「特斯拉的数据闭环逻辑,在机器人这件事上,底层就不成立。」
先把特斯拉那套逻辑说清楚。
Autopilot和FSD能做到今天这一步,核心不是某一个算法突破,而是数据引擎(Data Engine)——特斯拉造的每一辆车,都是一个数据采集终端。
几百万辆车在路上跑,司机开车的每一秒都在把数据传回云端,云端的大脑不断被更新,更好的自动驾驶能力再被推送到车上。车越多,数据越多,大脑越好,数据越多,如此循环。
这是一种「以本体为中心」的数据逻辑:本体商(整车厂)因为部署了最多的本体,天然就是最大的数据拥有者,也就是最强的大脑训练者。
在机器人领域,这件事为什么行不通?
谢晨给出了一个很干净的答案:现在世界上没有、也不可能快速有「几百万台机器人部署在端侧执行任务」。
如果用遥控操作来采集数据,成本高得不可规模化。如果依赖机器人自主执行,泛化能力又远没到那一步——恶性循环。
「这就意味着,机器人最多的数据,一定不是本体商能提供的。」
既然本体商无法垄断数据,「本体商 = 最好的大脑训练者」这个等式就不成立。
那机器人的数据应该从哪里来?
谢晨提出了一个概念:数据金字塔。
从上到下分三层:
最顶层,是真实机器人采集的数据。数量最少,但质量最高、也最难获取。
中间层,是仿真数据。通过在虚拟环境中运行机器人来生成,可以规模化产出,也不依赖硬件本体。
最底层,是互联网数据和人类第一视角数据。数量最多,但和机器人任务的相关性最弱。
关键的洞察是:中间层和底层的数据,都不依赖本体。这意味着,机器人产业的数据供给逻辑,更接近于大语言模型,而不是自动驾驶。
「机器人大脑,大概率不会是从本体那里长出来的。」
但还有一个更反直觉的地方。
大多数人以为,训练机器人最好的数据,应该是「完美执行」的数据——机器人把每一步都做得很完美,记录下来,反复学习。
谢晨和他的客户在实践中发现:这是错的。
「最有效的数据,是先失败、再成功的数据。」
他举了一个例子:机器人在做披萨,从容器里夹蘑菇片,没夹稳,蘑菇掉到桌上,机器人把它捡起来,继续往前。
这个「出错-纠正」的数据,训练出来的模型,泛化能力远高于「一直完美」的数据。
原因很朴素:这更接近人类的学习方式。人不是通过看一千个完美示范学会骑车的,而是通过自己摔跤、爬起来、再摔才学会的。模型也是一样——它需要见过「错了怎么办」,才真正学会「怎么不出错」。
这就牵出了一个更深的问题:机器人时代,数据公司的角色是什么?
谢晨认为,机器人产业会形成一个四方协作的格局:
大模型公司(做通用大脑)、本体公司(做硬件本体)、数据公司(做数据引擎)、场景公司(拥有真实部署场景,比如工厂、医院、农业集团)。
在自动驾驶时代,这四个角色可以高度合并在一家公司里——特斯拉同时是本体商、数据商、大脑商和场景商。
但在机器人时代,这四者大概率无法合并。
谢晨把这个拆分总结得很清楚:大模型公司会基于本体无关的数据训练大脑;本体公司会基于大模型的大脑来做部署微调;场景公司(比如大型OEM、医疗集团)会根据自己的需求选择硬件和大脑的搭配;而数据公司,会成为整个系统里最像「老师」的那个角色——不是被动提供标注,而是主动评测、出题、反馈,驱动整个系统进化。
「数据商和大模型厂商之间会越来越共生。因为大模型需要数据商提供更有效的评测,而数据商也需要大模型给它更好的验证反馈。」
最后还有一个关于「什么是数据」的认知升级。
谢晨用了一个贯穿整集的比喻:数据等于教育。
早期的数据就像买了一批教材发给学生,静态、一次性、没有互动。
后来到了Scale AI工业化数据生产的阶段,就像批量化教育——效率提升了,但老师和学生之间依然没有真正的了解。
而现在,顶级大模型训练所需要的数据,更像是一位真正了解学生的老师:基于对模型当前能力的评估,出有针对性的难题,给出个性化反馈,帮助模型发现自己的盲区。
时薪超过一百美元的数学金牌、顶级工程师、律师和医生,已经开始出现在大模型的数据供应链里。
谢晨认为,机器人数据迟早会走到这一步——只不过「老师」不再是人,而是一个「以系统为中心的私教体系」,可以以足够大的规模提供言传身教。
只有这样,才能真正实现零样本泛化——让机器人面对从没见过的任务,也能做出来。
那才是大脑真正成熟的那一天。