谢赛宁七小时访谈:在语言模型的狂欢中,他选择做世界模型
AI OrganizationAI Principles

谢赛宁七小时访谈:在语言模型的狂欢中,他选择做世界模型

谢赛宁 (AI研究者, AMI Labs联合创始人兼首席科学官) | 主持人: 张小珺
2026年3月16日小宇宙
返回首页

金句精选

「硅谷已经被LLM催眠了,每个人都失去了定义问题的能力。」

「语言模型是通讯工具,你永远带着目的去问。世界模型不同——它在后台持续运行,不需要你的询问。」

「过去的时代是download internet,现在的时代是download human。一个四岁小孩看过的视频量,比训练所有大语言模型的token还多。」

「我们不是含着金汤匙出生的。在行业压迫下生存,我们是一个underdog。但这反而让我更有冲劲。」

「打造一只松鼠的智能,比让AI拿IMO金牌更难。一旦你能造出松鼠,上火星就是再容易不过的事。」

2026年春节,当中国机器人登上春晚时,纽约刚下过一场暴雪。布鲁克林一栋略显凌乱的楼房里,谢赛宁坐在镜头前,从下午2点聊到凌晨。这场七小时的马拉松访谈,是他第一次接受媒体采访。

「硅谷已经被LLM催眠了,」这位1990年出生的华人科学家说。就在几周前,他刚和图灵奖得主杨立昆创立了AMI Labs——一家25人的初创公司,没有产品,完成10.3亿美元融资,估值35亿。

他们要做的事情很简单:在大语言模型统治一切的时代,重新定义AI的基础。

两次拒绝Ilya的人

2024年初,谢赛宁的手机响了。来电显示:Ilya Sutskever。

OpenAI的首席科学家,那个把Transformer推向巅峰的男人,亲自打来招募电话。谢赛宁的回答只有两个字:不去。

「我什么都没说,直接拒了,」他回忆道,「后来发了一个offer,我还是说不去。」

这不是第一次。更早之前,Ilya就曾邀请他加入。两次邀约,两次拒绝。

原因很简单:「在那样的公司,你只能执行别人定义好的问题。但我想定义问题本身。」

这种「定义问题」的执念,贯穿了他整个研究生涯。从UCSD读博时研究对比学习,到Google DeepMind做视觉理解,再到Meta FAIR实验室,他始终在探索一个核心命题:什么是真正的智能?

但2025年,他发现在大厂里,这个问题已经没有人关心了。

LLM的囚徒

「现在整个AI行业有一条巨大的价值链,」谢赛宁说,「它从benchmark开始,定义了resource allocation,最后决定了每个人在做什么。」

这条价值链的逻辑很清晰:打榜、融资、堆算力、再打榜。所有人都在这个循环里狂奔,没人敢停下来思考。

他举了一个例子:视频理解。

「这是一个fundamental的问题,但现在没人在真正解决它。」为什么?因为所有做视频的团队都被分配去做video generation——生成模型能直接变现,能讲故事,能融资。

「我在Google的时候,有同事花两周时间做了类似的探索,但manager说不行,我们有product cycle要完成。」

这就是硅谷的现状:每个人都失去了定义问题的能力。大公司变成了执行机器,startup变成了融资机器。

杨立昆看到了同样的困境。2025年年中的一天,在一次一对一会议上,这位Meta的首席AI科学家对谢赛宁说:「我决定了,我想做的事情,应该在外面做。」

世界模型的赌注

AMI Labs的bet很简单:LLM不是通往通用智能的唯一路径。

「语言模型是智能体的重要组成部分,但它不是全部,」谢赛宁解释,「它是一个communication tool,你永远带着目的去问问题。但世界模型不同——它在background持续运行,不需要你的询问。」

他用一个神经科学实验来说明:当你面前有三个按钮,在你意识到要按哪个之前,大脑已经做好了决定。这就是世界模型在工作。

技术层面,问题更明显。当你头部转动5度,视觉系统会产生数百帧画面。如果用LLM处理,需要把每一帧拉平成256个token,128帧就是32768个token。

「这完全不make sense,」他说,「你把一个global state序列化成冗余的tokens,然后transformer对每个token pay equal attention——这本身就不合理。」

真正的世界模型需要:理解物理世界、拥有足够大的memory、能够reasoning和planning、可控且安全。这些能力,语言模型给不了。

数据的战争

但世界模型面临一个致命问题:数据从哪来?

「过去的时代是download internet,」谢赛宁说,「现在的时代是download human。」

一个四岁小孩看过的视频量,比训练所有大语言模型的token还要多。这个量级,互联网数据远远不够。

他们的策略分三步走:

第一步,从YouTube开始。但这条路很快就会遇到版权墙——所有公司都在爬,所有平台都在封。

第二步,和行业合作伙伴共建。「我们需要的不是YouTube这种for entertainment的数据,而是真实世界里的数据——医院的、农场的、工厂的。」

第三步,多模态传感器。「一个飞机引擎有1000个sensor持续记录数据,这就是一个飞机引擎的世界模型。」

这是一个反向的OpenAI:不是从互联网数据训练出模型再推向市场,而是从真实世界的需求收集数据,反哺模型训练。

「世界需要世界模型,世界模型也需要世界,」他说,「在硅谷的叙事之外,有一个隐形的世界——那里的人拿着LLM解决不了他们的问题。」

逃离硅谷

AMI Labs的总部不在旧金山,而在巴黎。四个office:巴黎、纽约、蒙特利尔、新加坡。

「我们不是含着金汤匙出生的,」谢赛宁说,「我们是一个underdog。」

团队25人,大多数来自OpenAI、DeepMind、Meta。有人放弃了1500万美元的Meta offer,有人离开了几千万的unvested stock options。

为什么?

「因为这是唯一一个地方,我们可以做这件事,」他说,「大厂里,你的氧气被抽走了。你没有freedom去做真正的research。」

CEO是一位来自Meta南欧区的VP,COO负责运营,还有一位来自JEPA团队的director负责模型。谢赛宁的title是Chief Science Officer。

「我希望我的定位还是在science上,」他说,「我不是一个好CEO。但我可以成为这个团队的电池——用我的passion给其他人发电。」

这个比喻来自他最喜欢的足球教练克洛普。20年利物浦球迷的他,更喜欢克洛普那句:「I'm not the special one, I'm the normal one。」

松鼠比写代码更难

访谈的尾声,谢赛宁讲了一个观点:「我觉得打造一只松鼠的智能,比让AI拿到IMO金牌更难。」

这来自Rich Sutton的启发。如果你能造出一只松鼠——它能在真实世界生存,有自己的goal,知道饥饿,有情感,能社交——写代码、上火星这些事都是「再容易不过」。

「我们需要放弃人类的自大,」他说,「AGI是个伪命题。General intelligence根本不存在——人的智能本身就是高度specialized的。我们只能认知自己能看到的东西。」

他推荐了一本书:《我们是否足够聪明,去了解动物有多聪明》。黑猩猩会权谋斗争,乌鸦会转移藏匿的食物,松鼠有自己的世界模型——语言不是智能的唯一载体。

「智能的边界很宽广,」他说,「在谈论AGI之前,先做一个能帮我做家务的机器人吧。一个12岁孩子能做所有家务,但没有任何机器人能做到。」

命运的42

七小时访谈的最后,我问他:你相信命运吗?

「越来越相信,」他说。

那你的世界模型能预测命运吗?

他笑了:「不能。因为你需要用地球这么大的计算机,或者整个宇宙作为计算机,才能得到关于生命、宇宙、一切的答案。」

「那个答案可能是42。」

这是《银河系漫游指南》里的梗。超级计算机思考了750万年,给出宇宙终极问题的答案:42。

但谢赛宁的世界模型还在构建中。窗外,纽约的雪还没化完,Brooklyn的街道上,艺人在弹钢琴,年轻人在发呆,NYU学生抱着电脑学习。

这个世界比AI大得多。

也比任何语言模型复杂得多。


关键金句

金句1:「硅谷已经被LLM催眠了,每个人都失去了定义问题的能力。」

金句2:「语言模型是通讯工具,你永远带着目的去问。世界模型不同——它在后台持续运行,不需要你的询问。」

金句3:「过去的时代是download internet,现在的时代是download human。一个四岁小孩看过的视频量,比训练所有大语言模型的token还多。」

金句4:「我们不是含着金汤匙出生的。在行业压迫下生存,我们是一个underdog。但这反而让我更有冲劲。」

金句5:「打造一只松鼠的智能,比让AI拿IMO金牌更难。一旦你能造出松鼠,上火星就是再容易不过的事。」