Anthropic CEO坦言:我们正接近指数增长的尽头,1-3年内AI将成为天才之国
AI CodingAI PrinciplesAI BusinessAI Organization

Anthropic CEO坦言:我们正接近指数增长的尽头,1-3年内AI将成为天才之国

D
Dario Amodei (Anthropic CEO)
2026年2月13日YouTube
返回首页

金句精选

如果你还在逐行敲代码,你可能正在用打字机时代的方式工作

所有的聪明技巧、新方法,都不重要。重要的只有那几件事

我们正接近指数增长的尽头

预训练不像人类学习,也不像人类进化。它介于两者之间

RL scaling law的数学本质与泛化机制

90%的代码现在由AI写出。在Anthropic内部,有工程师已经不再手写任何一行代码,GPU kernel直接交给Claude完成。

如果你还在逐行调试,反复重构,把「编程」当作核心竞争力——你可能正在用打字机时代的方式工作。

这是Anthropic CEO Dario Amodei在2025年初接受访谈时透露的现状。三年前,他预测「三年后的AI系统在一小时对话中难以与受过良好教育的人类区分」。这个预测应验了。但他同时说出了一个更惊人的判断:我们正接近指数增长的尽头。1到3年内,数据中心里将出现一个「天才之国」。

Dario不是那种会用「革命性」「颠覆性」这类词汇的人。2017年,他写下「The Big Blob of Compute Hypothesis」(大型计算团假设)时,GPT-1刚发布。当时AI圈还在争论语言模型、机器人、AlphaGo式强化学习哪条路径更有前景。Dario的文档里列出了七个关键要素:算力、数据量、数据分布、训练时长、可无限扩展的目标函数、数值稳定性。

他在访谈中说:「我的假设从2017年至今没有改变。所有的聪明技巧、新方法,都不重要。重要的只有这几件事。」

但问题来了。

三年前的scaling law清晰可见:投入更多算力,loss曲线平稳下降。现在公众视野里,RL scaling没有公开的scaling law,甚至不清楚它到底在教模型什么——是具体技能,还是元学习能力?

Dario的回答是:RL scaling和预训练scaling本质相同。「我们在数学竞赛上训练模型,模型表现与训练时长呈对数线性关系。这不只在数学竞赛上,在各种RL任务上都成立。」他强调,就像GPT-1只训练在小说语料上无法泛化,只有GPT-2用Common Crawl和Reddit抓取的广泛分布数据才开始泛化。RL也一样:先是数学竞赛,然后是代码,现在正在扩展到更多任务。

泛化会到来,只是需要足够广的任务分布。

这时候,面试者抛出了一个尖锐的问题。他引用了Richard Sutton(《The Bitter Lesson》作者)的观点:「真正的人类学习算法不需要数十亿美元、海量数据和专门设计的RL环境才能学会用Excel或PowerPoint。如果我们必须在RL环境里教AI这些技能,说明我们缺少核心的人类学习算法——我们在scaling错误的东西。」

Dario停顿了一下。他说,这个puzzle确实存在,但可能不重要。

他解释:人类婴儿的大脑不是白板。进化已经给我们预装了大量先验——不同脑区、输入输出连接、本能反应。而语言模型从随机权重开始,需要万亿token的预训练。但一旦训练完成,如果给它百万token的上下文窗口,它在上下文内的学习和适应能力非常强。

「预训练不像人类学习,也不像人类进化。它介于两者之间。RL也是。而模型的in-context learning,介于人类的长期学习和短期学习之间。这是一个不同的光谱,不必完全对应人类的学习阶段。」

有些东西正在浮出水面。

Dario说,Anthropic的目标不是在RL里教会模型每一个可能的技能,就像预训练不是为了覆盖每一种可能的文本组合。「我们在GPT-2时代看到泛化发生。你给模型一个从没见过的模式——比如房价和面积的表格——模型会完成模式,做线性回归。不完美,但它做到了。RL的目标是一样的:训练足够多的任务,达到泛化。」

关键转折发生在代码领域。Dario透露,八到九个月前他预测「三到六个月内AI模型将写出90%的代码」。这已经实现了——至少在Anthropic内部和部分下游用户中实现了。但他强调,这和「不再需要90%的软件工程师」是完全不同的两件事。

他列出了一个光谱:

  • 90%的代码行由模型写出
  • 100%的代码行由模型写出
  • 90%的端到端SWE任务(包括编译、环境配置、测试、写文档)由模型完成
  • 100%的当前SWE任务由模型完成
  • 对SWE的需求减少90%

「我们正在快速推进这个光谱。」

面试者追问:即使模型能写100%的代码,我们在现实世界中看到软件的文艺复兴了吗?看到大量原本不存在的新功能了吗?没有。那为什么认为从90%到100%会带来巨大生产力提升?

Dario的回答很直接:「在Anthropic内部,这毫不含糊。我们面临巨大商业压力,还要做比其他公司更多的安全工作。我们要维持10倍年增长的营收曲线。没有时间自欺欺人。这些工具让我们的生产力大幅提升。为什么我们担心竞争对手用我们的工具?因为我们知道这些工具真的有用。我们每几个月看到一次模型发布的最终产出,骗不了自己。」

他估计,当前代码模型带来的总要素加速大约是15%到20%。六个月前是5%,还不够显著。但现在它已经成为几个重要因素之一,而且会继续加速。

两个字:软起飞。

「我的主题一直是:所有这些都是软起飞,平滑的指数曲线——尽管这些指数曲线相当陡峭。我们看到的是一个雪球在聚集动量:10%、20%、25%、40%。随着进展,你必须清除所有阻碍闭环的因素,这就是Amdahl's Law(阿姆达尔定律)的体现。」

但面试者不满意。他说,如果模型连on-the-job learning(在职学习)都做不到,怎么能说它接近人类能力?大多数经济活动中,雇主都会说:「新人头几个月没什么用,但随着时间推移,他们积累了上下文理解,现在是我们的核心力量。」如果AI没有这种能力,很难相信世界会发生巨大变化。

Dario的回答分为两层。

第一层:现有技术可能已经足够。预训练 + RL的学习方式介于进化和人类学习之间,但一旦训练完成,模型拥有的知识广度超过任何个人——日本武士历史、棒球、低通滤波器,它全都知道。再加上in-context learning(百万token的上下文相当于人类几天到几周的阅读量),这两者结合可能就足以达到「数据中心里的天才之国」。

第二层:持续学习(continual learning)也在研发中。「我认为在未来一两年内,我们有很大机会解决单个模型的在职学习问题。」方法之一是增加上下文长度。「这不是研究问题,是工程和推理问题。」从2020年到2023年,上下文从2000增长到128K。之后两年停滞在类似范围。Dario说,问题在于训练时的上下文长度和服务时的上下文长度不同,以及KV cache存储和GPU内存管理的工程挑战。

「如果你在短上下文训练,然后试图在长上下文服务,可能会出现退化。但如果在长上下文训练,这些问题可以解决。」

核心预测来了。

面试者问:什么时候我会不再偏好一个跟我工作了六个月的人类视频编辑,而是同等偏好一个「跟我工作了六个月」的AI?

Dario说:「很多问题的答案都是:当我们有了数据中心里的天才之国。我的猜测是一到两年,可能一到三年。很难准确判断。但我有95%的把握,所有这些会在10年内发生。这是非常安全的赌注。然后我有一个50/50的直觉,它会更像一到两年,也许一到三年。」

他的逻辑是这样的:模型能通过计算机使用界面访问所有数据——你的历史访谈、Twitter评论、与员工的对话记录、编辑历史。从中学习,然后完成工作。前提是计算机使用(computer use)能力必须达到可靠水平。Anthropic的OS World基准测试从15%爬升到65%-70%。一旦跨越可靠性阈值,视频编辑这类任务就能实现。

但关键的不确定性不在技术,在扩散。

Dario透露,Anthropic的营收增长曲线令人震惊:2023年从0到1亿美元,2024年从1亿到10亿,2025年从10亿到90-100亿。2026年1月,他们又增加了几十亿。「这条曲线不可能永远持续——GDP就那么大。但这是一条非常快的曲线。」

问题是:即使模型达到「天才之国」水平,多久之后万亿级营收会滚滚而来?Dario认为可能是一年,可能是两年,「我怀疑会是五年,但不排除」。这个不确定性是致命的。数据中心的采购周期需要提前一到两年。如果你在2027年预定1万亿美元的算力(实际上是5年×每年1万亿),但营收增长比预期晚一年,或者增速是5倍而不是10倍——你就破产了。

「没有任何力量、任何对冲能阻止我破产。所以即使我大脑的一部分在想它会继续10倍增长,我也不能在2027年买1万亿美元/年的算力。你最终会支持数千亿而非万亿,接受一些供不应求的风险,也接受一些预测错误、增长仍然缓慢的风险。」

这就是Dario在DealBook访谈中强调「负责任的算力扩张」的原因。他说,关键不是绝对金额(Anthropic确实花得比某些竞争对手少),而是是否经过深思熟虑。「我感觉有些公司没有写下电子表格,没有真正理解他们在承担的风险。他们只是因为听起来酷就去做。我们仔细思考过。我们是企业业务,营收更可靠,利润率更高,这是买太多和买太少之间的缓冲。我们购买的量能够捕捉相当强的上行情况,但不会捕捉全部的10倍增长。而且情况必须非常糟糕,我们才会陷入财务困境。」

想想疫苗和新冠。理论上一年半就把疫苗推广到所有人,但实际上脊髓灰质炎疫苗问世50年后,我们仍在尝试在非洲最偏远的角落根除它。Dario在《Machines of Loving Grace》里写到:即使有了能发明一切的天才AI,从它存在于实验室到疾病真正被治愈,需要多久?生物学发现、药物制造、监管审批、临床试验——大多数临床试验失败是因为药物无效,而不是监管阻碍。AI会让试验快很多,但不是无限快。

「这不是瞬间的,也不是缓慢的,会比任何以往技术都快,但仍有它的极限。」

这让我们理解了一个悖论:为什么Dario既坚信1-3年内达到AGI,又不下注万亿级算力?因为他看到的是两条指数曲线——一条是模型能力的快速指数,另一条是经济扩散的快速指数。两者都快,但第二条的不确定性更高。

理论遇上了现实的摩擦力。

在物理学里,光滑表面上的物体会无限加速。但现实世界有空气阻力、摩擦系数、材料疲劳。Dario看到的AI进展,就像一个在真实介质中加速的物体:指数仍在,但不是真空中的理想指数。企业采购流程、法务审核、安全合规、领导层说服、开发者培训——每一个环节都是摩擦力。

Claude Code在大型企业的推广速度,比历史上任何企业技术都快。但比起个人开发者和A轮创业公司,仍然慢了几个月。「你必须通过法务,为所有人配置,通过安全和合规审查。公司领导离AI革命更远,虽然有前瞻性,但他们必须说服自己:为什么花5000万美元有意义?这个Claude Code是什么?为什么让我们更有生产力?然后他们要向下两级的人解释,对3000名开发者制定推广计划。」

Dario说:「我们每天都在进行这样的对话。我们尽一切努力让Anthropic的营收增长20倍或30倍而不是10倍。很多企业确实在说『这太高效了,我们要在采购流程上走捷径』。但它不是无限compelling,即使是AGI或天才之国也不会是无限compelling。它会足够compelling到在数千亿美元规模时仍能实现每年3倍、5倍或10倍增长——这在历史上从未有人做到——但不是无限快。」

余韵在访谈的最后一个问题里。

面试者说:「当我想到真正的天才之国,我会毫不犹豫地买5万亿美元的算力来运行它。如果摩根大通或Moderna不想用,没关系,天才们会自己开公司。如果临床试验是瓶颈,那好,你有一整个天才国家,让他们加速AI进展本身。你为什么不买那1万亿/年的算力?」

Dario的回答是:「第一,世界上没有那么多算力可生产。第二,如果天才之国在2028年中而不是2027年中到来呢?」

一年之差,决定生死。