英伟达机器人研究负责人Jim Fan揭秘:从语言模型到世界行动模型的范式转变
Physical AI

英伟达机器人研究负责人Jim Fan揭秘:从语言模型到世界行动模型的范式转变

J
Jim Fan·英伟达具身自主研究小组负责人 | 主持人: Dennis(Sequoia Capital Profound主持人)
2026年4月30日YouTube
返回首页

金句精选

「如果你相信深度学习,深度学习就会相信你。三步函数,六年时间,就是我们走到今天的全部。」

「大语言模型们正在进行最终boss战,我们为什么不能让机器人也参与这场游戏呢?」

「视觉语言行动模型本质上是语言优先的,语言是一等公民,视觉和行动是二等公民——这在设计上就有问题。」

「视频模型通过预测下一个像素块,自发地学会了重力、浮力、光照、反射和折射——物理学从像素级别的预测中涌现出来。」

「梦零模型会梦见未来几秒钟的场景然后采取行动,如果视频预测成功,行动就成功;如果视频产生幻觉,行动就失败——视觉和行动现在是真正的一等公民。」

如果你觉得机器人还遥不可及,范骏会用一场“终局之战”的预言,彻底刷新你的想象。2040年,机器人有望完成技术树的最后三块拼图,成为不输人类的通用劳动力。这不是科幻,而是正在NVIDIA实验室里悄然发生的现实。

想象一下,办公室里一位穿着亮皮夹克、肌肉发达的男子,扛着一块沉甸甸的金属托盘走进来,郑重其事地在上面写下——「献给Elon和OpenAI团队,献给计算与人类的未来:世界上第一台DGX-1。」那是2016年夏天,范骏还是实习生。他和同事们争着在这块托盘上签名,谁都不曾料到:短短六年后,深度学习会以三步走,直抵今天的巅峰。

Ilia Sutskever曾说:「如果你相信深度学习,深度学习也会相信你。」结果,深度学习的“信任”远远超出了所有人预期。回望这六年,AI从学习语言的语法与形态(GP3预训练),到通过强化学习超越模仿(InstructGPT),再到自动化研究加速人类极限,步步为营,按下了科技进化的快进键。如今,语言大模型(LLM)已经走到最终Boss战的门口,AGI的速度仿佛在“神话生物”般的硬件上狂奔。

那么,机器人呢?为什么没能一起狂欢?

范骏没有气馁,反而“抄起作业”,为机器人领域提出了「伟大平行论」:既然大模型能模拟词语的下一个状态,机器人也能模拟物理世界的下一个状态。通过行动微调(action fine-tuning),让仿真聚焦于现实中机器人的关键片段,再借助强化学习走完最后一公里——这就是机器人领域的“终局之战”。

视觉-语言-动作模型的极限

过去三年,机器人领域被视觉-语言-动作模型(VAS)主导。你或许见过那些让机器人“把可乐罐移到泰勒·斯威夫特照片旁边”的演示。确实,这些模型能泛化到没见过的对象,但它们的核心还是“头重脚轻”:参数主要用在语言理解,物理和动作反而被边缘化。它们擅长编码知识与名词,却不擅长物理规律和动词。

另一个流行的预训练范式,则被戏称为“AI视频糊”。大量猫弹班卓琴的视频,乍看荒诞不经,但这些模型却学会了预测世界的下一个状态——重力、浮力、光影、折射,统统能在像素层面自然涌现。甚至连视觉规划都能自发形成:模型在像素空间里“推演”如何破解迷宫,某些时候还会玩点小聪明——“你不看它,几何就是可选项”。

于是,Dream Zero应运而生。它是一种新的策略模型,能“梦见”未来几秒的物理世界,并据此做出高维、连续的动作决策。Dream Zero联合解码下一个世界状态和动作指令,让机器人第一次具备了“即兴创作”的能力——即便没见过的任务,也能一试身手。视频预测准,动作就准;视频“幻觉”了,动作也会失败。这一次,视觉和动作成为平等的“一等公民”,VAS时代正式谢幕。

数据采集的革命:从遥操作到人类视角

模型之外,数据是另一场革命的主战场。三年来,遥操作(teleoperation)成为黄金标准——博士们戴着VR头盔、操控“中世纪刑具”般的复杂设备,一天最多也只能为每台机器人采集24小时数据。现实远比理想骨感,范骏自嘲:“其实每台机器人每天能用三小时就不错了,还得看机器人‘脾气’。”

怎样打破天花板?UMI(通用操作接口)横空出世——把机器人的手直接戴在自己手上,像戴手套一样自然,数据采集效率陡增。UMI推动了两家独角兽创业公司诞生。左侧是Generalist,做了可穿戴式夹爪;右侧Sunday,研发了三指数据手套。

但范骏不满足。他们团队去年做出五指外骨骼装备,与灵巧机器人手一一映射。实验显示:人类直接采集数据,速度最快;遥操作最慢、成功率也最低。而用外骨骼则兼顾效率与精度。更惊人的是,依赖这些人类采集的数据,训练出的机器人策略能实现完全自主,打破了“每台机器人每天24小时”的魔咒。

不过,UMI和数据手套依然有局限——笨重、入侵感强,不如开车般“无感”。想象特斯拉和Waymo:你每天开车,数据就自动上传,自己却毫无察觉。机器人也需要这样的“全自动采集”。

Egocentric视频与神经扩展

范骏团队押注“人类视角视频”——成千上万小时的头戴摄像头记录人类自然操作,再加上手部追踪、密集语言注释。EgoScale模型以21,000小时的野外人类视角数据为基础,零机器人数据预训练,仅用50小时高精度数据手套和区区4小时遥操作就在精调阶段实现突破。结果,机器人能够一试即会折叠衬衫、精准操控注射器,甚至只需一次演示即可学会多种叠衣方式。

更重要的,是规律背后的数学。EgoScale实验发现了“灵巧神经缩放律”:预训练时长与模型泛化能力之间呈现清晰的对数线性关系。这一发现,距离语言模型的神经缩放律提出刚好六年。机器人领域,终于迎来自己的“指数时代”。

范骏用一张图总结了数据策略演进:X轴是与机器人硬件的适配度,Y轴是可扩展性。遥操作最不易扩展,数据穿戴设备能扩展到数十万小时,而人类视角视频则可轻松达千万小时。未来一年,遥操作将边缘化,数据穿戴设备则针对定制场景并存,主食终将是“传感化人类数据”。

仿真环境的指数升级

但终极瓶颈还在“环境规模”。过去,强化学习要靠真实机器人一台台采集,想要百万级场景,得百万台机器人,显然不可行。新思路是“实景-仿真-实景”闭环:用iPhone一拍,3D扫描提取物体,自动放入物理仿真器,物体即可交互。更进一步,「Dream Dojo」横空出世:输入动作信号,直接输出下一帧RGB图像和传感器状态,全程无一像素真实,纯数据驱动,无需物理公式与图形引擎。

这意味着,未来的机器人训练范式是:少量真实机器人,配合海量图形算力,在物理世界扫描和神经仿真中并行运行。数据、算力、环境三位一体,形成自我增强的正循环。正如范骏所言:「计算力即环境数,即数据量。」

终局三问:机器人技术树的最后拼图

机器人技术树只剩下三块拼图:

  1. 物理图灵测试:机器人在广泛任务中的表现,与人类已无法分辨——不是醉酒人类,但绝大多数领域都能“以假乱真”。范骏预言,两到三年内可见分晓。
  2. 物理API与原子工厂:未来的机器人可像软件API一样配置和调用,拥有统一接口,甚至能实现“原子打印工厂”——输入设计文档,输出全自动组装产品。医学、化学、生物实验室将被“湿实验室”自动化重塑。
  3. 物理自我进化:机器人开始自主设计、优化、制造新一代自身,突破人类极限,实现“自我演化”。

有人会问:这会不会太科幻?我们能否在有生之年见证?

别忘了,从2012年AlexNet首次“分猫狗”,到2026年AGI冲顶,只用了14年。再加14年,2040年,技术树终章或将落地。而科技的脚步,从不线性,而是指数爆发。

范骏最后说:「如果你相信机器人,机器人也会相信你。」我们这一代,或许生不逢时,错过了探索地球与星辰的黄金时代,但恰好赶上了解决机器人终极难题的关键节点。

2040年,终局已来。你准备好了吗?