降噪 - AI精选内容平台

如果你觉得机器人还遥不可及，范骏会用一场“终局之战”的预言，彻底刷新你的想象。2040年，机器人有望完成技术树的最后三块拼图，成为不输人类的通用劳动力。这不是科幻，而是正在NVIDIA实验室里悄然发生的现实。

想象一下，办公室里一位穿着亮皮夹克、肌肉发达的男子，扛着一块沉甸甸的金属托盘走进来，郑重其事地在上面写下——「献给Elon和OpenAI团队，献给计算与人类的未来：世界上第一台DGX-1。」那是2016年夏天，范骏还是实习生。他和同事们争着在这块托盘上签名，谁都不曾料到：短短六年后，深度学习会以三步走，直抵今天的巅峰。

Ilia Sutskever曾说：「如果你相信深度学习，深度学习也会相信你。」结果，深度学习的“信任”远远超出了所有人预期。回望这六年，AI从学习语言的语法与形态（GP3预训练），到通过强化学习超越模仿（InstructGPT），再到自动化研究加速人类极限，步步为营，按下了科技进化的快进键。如今，语言大模型（LLM）已经走到最终Boss战的门口，AGI的速度仿佛在“神话生物”般的硬件上狂奔。

那么，机器人呢？为什么没能一起狂欢？

范骏没有气馁，反而“抄起作业”，为机器人领域提出了「伟大平行论」：既然大模型能模拟词语的下一个状态，机器人也能模拟物理世界的下一个状态。通过行动微调（action fine-tuning），让仿真聚焦于现实中机器人的关键片段，再借助强化学习走完最后一公里——这就是机器人领域的“终局之战”。

视觉-语言-动作模型的极限

过去三年，机器人领域被视觉-语言-动作模型（VAS）主导。你或许见过那些让机器人“把可乐罐移到泰勒·斯威夫特照片旁边”的演示。确实，这些模型能泛化到没见过的对象，但它们的核心还是“头重脚轻”：参数主要用在语言理解，物理和动作反而被边缘化。它们擅长编码知识与名词，却不擅长物理规律和动词。

另一个流行的预训练范式，则被戏称为“AI视频糊”。大量猫弹班卓琴的视频，乍看荒诞不经，但这些模型却学会了预测世界的下一个状态——重力、浮力、光影、折射，统统能在像素层面自然涌现。甚至连视觉规划都能自发形成：模型在像素空间里“推演”如何破解迷宫，某些时候还会玩点小聪明——“你不看它，几何就是可选项”。

于是，Dream Zero应运而生。它是一种新的策略模型，能“梦见”未来几秒的物理世界，并据此做出高维、连续的动作决策。Dream Zero联合解码下一个世界状态和动作指令，让机器人第一次具备了“即兴创作”的能力——即便没见过的任务，也能一试身手。视频预测准，动作就准；视频“幻觉”了，动作也会失败。这一次，视觉和动作成为平等的“一等公民”，VAS时代正式谢幕。

数据采集的革命：从遥操作到人类视角

模型之外，数据是另一场革命的主战场。三年来，遥操作（teleoperation）成为黄金标准——博士们戴着VR头盔、操控“中世纪刑具”般的复杂设备，一天最多也只能为每台机器人采集24小时数据。现实远比理想骨感，范骏自嘲：“其实每台机器人每天能用三小时就不错了，还得看机器人‘脾气’。”

怎样打破天花板？UMI（通用操作接口）横空出世——把机器人的手直接戴在自己手上，像戴手套一样自然，数据采集效率陡增。UMI推动了两家独角兽创业公司诞生。左侧是Generalist，做了可穿戴式夹爪；右侧Sunday，研发了三指数据手套。

但范骏不满足。他们团队去年做出五指外骨骼装备，与灵巧机器人手一一映射。实验显示：人类直接采集数据，速度最快；遥操作最慢、成功率也最低。而用外骨骼则兼顾效率与精度。更惊人的是，依赖这些人类采集的数据，训练出的机器人策略能实现完全自主，打破了“每台机器人每天24小时”的魔咒。

不过，UMI和数据手套依然有局限——笨重、入侵感强，不如开车般“无感”。想象特斯拉和Waymo：你每天开车，数据就自动上传，自己却毫无察觉。机器人也需要这样的“全自动采集”。

Egocentric视频与神经扩展

范骏团队押注“人类视角视频”——成千上万小时的头戴摄像头记录人类自然操作，再加上手部追踪、密集语言注释。EgoScale模型以21,000小时的野外人类视角数据为基础，零机器人数据预训练，仅用50小时高精度数据手套和区区4小时遥操作就在精调阶段实现突破。结果，机器人能够一试即会折叠衬衫、精准操控注射器，甚至只需一次演示即可学会多种叠衣方式。

更重要的，是规律背后的数学。EgoScale实验发现了“灵巧神经缩放律”：预训练时长与模型泛化能力之间呈现清晰的对数线性关系。这一发现，距离语言模型的神经缩放律提出刚好六年。机器人领域，终于迎来自己的“指数时代”。

范骏用一张图总结了数据策略演进：X轴是与机器人硬件的适配度，Y轴是可扩展性。遥操作最不易扩展，数据穿戴设备能扩展到数十万小时，而人类视角视频则可轻松达千万小时。未来一年，遥操作将边缘化，数据穿戴设备则针对定制场景并存，主食终将是“传感化人类数据”。

仿真环境的指数升级

但终极瓶颈还在“环境规模”。过去，强化学习要靠真实机器人一台台采集，想要百万级场景，得百万台机器人，显然不可行。新思路是“实景-仿真-实景”闭环：用iPhone一拍，3D扫描提取物体，自动放入物理仿真器，物体即可交互。更进一步，「Dream Dojo」横空出世：输入动作信号，直接输出下一帧RGB图像和传感器状态，全程无一像素真实，纯数据驱动，无需物理公式与图形引擎。

这意味着，未来的机器人训练范式是：少量真实机器人，配合海量图形算力，在物理世界扫描和神经仿真中并行运行。数据、算力、环境三位一体，形成自我增强的正循环。正如范骏所言：「计算力即环境数，即数据量。」

终局三问：机器人技术树的最后拼图

机器人技术树只剩下三块拼图：

物理图灵测试：机器人在广泛任务中的表现，与人类已无法分辨——不是醉酒人类，但绝大多数领域都能“以假乱真”。范骏预言，两到三年内可见分晓。
物理API与原子工厂：未来的机器人可像软件API一样配置和调用，拥有统一接口，甚至能实现“原子打印工厂”——输入设计文档，输出全自动组装产品。医学、化学、生物实验室将被“湿实验室”自动化重塑。
物理自我进化：机器人开始自主设计、优化、制造新一代自身，突破人类极限，实现“自我演化”。

有人会问：这会不会太科幻？我们能否在有生之年见证？

别忘了，从2012年AlexNet首次“分猫狗”，到2026年AGI冲顶，只用了14年。再加14年，2040年，技术树终章或将落地。而科技的脚步，从不线性，而是指数爆发。

范骏最后说：「如果你相信机器人，机器人也会相信你。」我们这一代，或许生不逢时，错过了探索地球与星辰的黄金时代，但恰好赶上了解决机器人终极难题的关键节点。

英伟达机器人研究负责人Jim Fan揭秘：从语言模型到世界行动模型的范式转变

金句精选

视觉-语言-动作模型的极限

数据采集的革命：从遥操作到人类视角

Egocentric视频与神经扩展

仿真环境的指数升级

终局三问：机器人技术树的最后拼图