2026年春节,当中国机器人登上春晚时,纽约刚下过一场暴雪。布鲁克林一栋略显凌乱的楼房里,谢赛宁坐在镜头前,从下午2点聊到凌晨。这场七小时的马拉松访谈,是他第一次接受媒体采访。
「硅谷已经被LLM催眠了,」这位1990年出生的华人科学家说。就在几周前,他刚和图灵奖得主杨立昆创立了AMI Labs——一家25人的初创公司,没有产品,完成10.3亿美元融资,估值35亿。
他们要做的事情很简单:在大语言模型统治一切的时代,重新定义AI的基础。
两次拒绝Ilya的人
2024年初,谢赛宁的手机响了。来电显示:Ilya Sutskever。
OpenAI的首席科学家,那个把Transformer推向巅峰的男人,亲自打来招募电话。谢赛宁的回答只有两个字:不去。
「我什么都没说,直接拒了,」他回忆道,「后来发了一个offer,我还是说不去。」
这不是第一次。更早之前,Ilya就曾邀请他加入。两次邀约,两次拒绝。
原因很简单:「在那样的公司,你只能执行别人定义好的问题。但我想定义问题本身。」
这种「定义问题」的执念,贯穿了他整个研究生涯。从UCSD读博时研究对比学习,到Google DeepMind做视觉理解,再到Meta FAIR实验室,他始终在探索一个核心命题:什么是真正的智能?
但2025年,他发现在大厂里,这个问题已经没有人关心了。
LLM的囚徒
「现在整个AI行业有一条巨大的价值链,」谢赛宁说,「它从benchmark开始,定义了resource allocation,最后决定了每个人在做什么。」
这条价值链的逻辑很清晰:打榜、融资、堆算力、再打榜。所有人都在这个循环里狂奔,没人敢停下来思考。
他举了一个例子:视频理解。
「这是一个fundamental的问题,但现在没人在真正解决它。」为什么?因为所有做视频的团队都被分配去做video generation——生成模型能直接变现,能讲故事,能融资。
「我在Google的时候,有同事花两周时间做了类似的探索,但manager说不行,我们有product cycle要完成。」
这就是硅谷的现状:每个人都失去了定义问题的能力。大公司变成了执行机器,startup变成了融资机器。
杨立昆看到了同样的困境。2025年年中的一天,在一次一对一会议上,这位Meta的首席AI科学家对谢赛宁说:「我决定了,我想做的事情,应该在外面做。」
世界模型的赌注
AMI Labs的bet很简单:LLM不是通往通用智能的唯一路径。
「语言模型是智能体的重要组成部分,但它不是全部,」谢赛宁解释,「它是一个communication tool,你永远带着目的去问问题。但世界模型不同——它在background持续运行,不需要你的询问。」
他用一个神经科学实验来说明:当你面前有三个按钮,在你意识到要按哪个之前,大脑已经做好了决定。这就是世界模型在工作。
技术层面,问题更明显。当你头部转动5度,视觉系统会产生数百帧画面。如果用LLM处理,需要把每一帧拉平成256个token,128帧就是32768个token。
「这完全不make sense,」他说,「你把一个global state序列化成冗余的tokens,然后transformer对每个token pay equal attention——这本身就不合理。」
真正的世界模型需要:理解物理世界、拥有足够大的memory、能够reasoning和planning、可控且安全。这些能力,语言模型给不了。
数据的战争
但世界模型面临一个致命问题:数据从哪来?
「过去的时代是download internet,」谢赛宁说,「现在的时代是download human。」
一个四岁小孩看过的视频量,比训练所有大语言模型的token还要多。这个量级,互联网数据远远不够。
他们的策略分三步走:
第一步,从YouTube开始。但这条路很快就会遇到版权墙——所有公司都在爬,所有平台都在封。
第二步,和行业合作伙伴共建。「我们需要的不是YouTube这种for entertainment的数据,而是真实世界里的数据——医院的、农场的、工厂的。」
第三步,多模态传感器。「一个飞机引擎有1000个sensor持续记录数据,这就是一个飞机引擎的世界模型。」
这是一个反向的OpenAI:不是从互联网数据训练出模型再推向市场,而是从真实世界的需求收集数据,反哺模型训练。
「世界需要世界模型,世界模型也需要世界,」他说,「在硅谷的叙事之外,有一个隐形的世界——那里的人拿着LLM解决不了他们的问题。」
逃离硅谷
AMI Labs的总部不在旧金山,而在巴黎。四个office:巴黎、纽约、蒙特利尔、新加坡。
「我们不是含着金汤匙出生的,」谢赛宁说,「我们是一个underdog。」
团队25人,大多数来自OpenAI、DeepMind、Meta。有人放弃了1500万美元的Meta offer,有人离开了几千万的unvested stock options。
为什么?
「因为这是唯一一个地方,我们可以做这件事,」他说,「大厂里,你的氧气被抽走了。你没有freedom去做真正的research。」
CEO是一位来自Meta南欧区的VP,COO负责运营,还有一位来自JEPA团队的director负责模型。谢赛宁的title是Chief Science Officer。
「我希望我的定位还是在science上,」他说,「我不是一个好CEO。但我可以成为这个团队的电池——用我的passion给其他人发电。」
这个比喻来自他最喜欢的足球教练克洛普。20年利物浦球迷的他,更喜欢克洛普那句:「I'm not the special one, I'm the normal one。」
松鼠比写代码更难
访谈的尾声,谢赛宁讲了一个观点:「我觉得打造一只松鼠的智能,比让AI拿到IMO金牌更难。」
这来自Rich Sutton的启发。如果你能造出一只松鼠——它能在真实世界生存,有自己的goal,知道饥饿,有情感,能社交——写代码、上火星这些事都是「再容易不过」。
「我们需要放弃人类的自大,」他说,「AGI是个伪命题。General intelligence根本不存在——人的智能本身就是高度specialized的。我们只能认知自己能看到的东西。」
他推荐了一本书:《我们是否足够聪明,去了解动物有多聪明》。黑猩猩会权谋斗争,乌鸦会转移藏匿的食物,松鼠有自己的世界模型——语言不是智能的唯一载体。
「智能的边界很宽广,」他说,「在谈论AGI之前,先做一个能帮我做家务的机器人吧。一个12岁孩子能做所有家务,但没有任何机器人能做到。」
命运的42
七小时访谈的最后,我问他:你相信命运吗?
「越来越相信,」他说。
那你的世界模型能预测命运吗?
他笑了:「不能。因为你需要用地球这么大的计算机,或者整个宇宙作为计算机,才能得到关于生命、宇宙、一切的答案。」
「那个答案可能是42。」
这是《银河系漫游指南》里的梗。超级计算机思考了750万年,给出宇宙终极问题的答案:42。
但谢赛宁的世界模型还在构建中。窗外,纽约的雪还没化完,Brooklyn的街道上,艺人在弹钢琴,年轻人在发呆,NYU学生抱着电脑学习。
这个世界比AI大得多。
也比任何语言模型复杂得多。
关键金句
金句1:「硅谷已经被LLM催眠了,每个人都失去了定义问题的能力。」
金句2:「语言模型是通讯工具,你永远带着目的去问。世界模型不同——它在后台持续运行,不需要你的询问。」
金句3:「过去的时代是download internet,现在的时代是download human。一个四岁小孩看过的视频量,比训练所有大语言模型的token还多。」
金句4:「我们不是含着金汤匙出生的。在行业压迫下生存,我们是一个underdog。但这反而让我更有冲劲。」
金句5:「打造一只松鼠的智能,比让AI拿IMO金牌更难。一旦你能造出松鼠,上火星就是再容易不过的事。」