2026年AI全景:中美竞争、Claude 4.5 Opus爆火、开源模型崛起与AGI时间线
AI Principles

2026年AI全景:中美竞争、Claude 4.5 Opus爆火、开源模型崛起与AGI时间线

S
Sebastian Raschka, Nathan Lambert
2025年1月31日YouTube
返回首页

金句精选

如果你还在逐行敲代码,你可能正在用打字机时代的方式工作

你没法在50步里教会模型数学,知识已经在预训练阶段装进去了。你只是在解锁它

扩展定律没有死。低垂的果实在强化学习那边,不在预训练

Anthropic有个优势:他们看起来最不混乱。在这个行业里,这居然成了竞争优势

找到bug的那一刻是世界上最棒的感觉。如果你直接问AI,你永远体会不到

2026年1月,当DeepSeek发布R1模型时,整个AI圈炸了。不是因为它多聪明,而是因为它「太便宜」——据称只花了500万美元训练费用,就达到了接近GPT-4的水平。如果你还在相信「AI进步=烧更多钱」,你可能正站在被颠覆的一方。

Sebastian Raschka拿着一个Qwen 2.5基础模型做实验。这个模型在数学测试集MATH 500上的准确率只有15%。他没有重新预训练,没有砸几百万美元,只是用RLVR方法训练了50步。几分钟后,准确率变成了50%。

「你没法在50步里教会模型任何新的数学知识,」Sebastian说,「知识已经在预训练阶段装进去了。你只是在解锁它。」

Sebastian是《从零构建大语言模型》的作者,机器学习研究员。他办公桌上永远放着一本半翻开的技术论文,习惯在凌晨5点起床写代码。他说这个实验时,用的是那种「你肯定不信但我确实做到了」的语气。

但故事不止于此。


2025年,AI领域的主战场不再是「谁的模型最大」,而是「谁能用更少的钱做出更聪明的模型」。这场转变的核心人物是Nathan Lambert,Allen Institute for AI的后训练负责人,《强化学习人类反馈》一书作者。他的团队在11月发布了一个30亿参数的模型,训练了5天。到了12月,他们让训练跑了3周半,模型明显变好了,于是又发了一版。

「这在2024年根本不可能,」Nathan说,「那时候没人敢让强化学习跑这么久。」

问题出在训练方式上。

传统的RLHF(强化学习人类反馈)像是在教模型「说话风格」。你问100个人「哪个回答更好」,模型学会了某种平均值。但到了某个点,继续训练就没意义了——就像你问亲戚该买什么笔记本电脑,有人看重续航,有人看重性能,两个答案都对,但你没法继续优化「正确性」。

RLVR不一样。


RLVR如何用「失败」训练出聪明模型

RLVR全称是Reinforcement Learning with Verifiable Rewards,中文叫「可验证奖励的强化学习」。这个名字是Nathan的团队在DeepSeek之前就起好的,虽然DeepSeek才是把它规模化的那个人。

原理很简单:给模型一道数学题,告诉它答案是什么,但不告诉它怎么做。然后让模型自己试。

第一次,模型可能算错了。第二次,它试着分步骤写。第三次,它写到一半发现不对,自己说「啊,我算错了,让我重来」。第四次,它对了。

「这就是aha moment,」Sebastian说,「模型自己意识到错误并修正。这不是我们编程进去的,是它从训练中学会的。」

但这里有个关键点:模型不是真的在「学数学」。Qwen 2.5的基础模型在预训练阶段已经见过海量数学题——包括arXiv上的论文,Stack Exchange上的讨论,甚至可能见过MATH数据集的变体(这也是为什么有人质疑Qwen存在数据污染)。RLVR只是在「激活」这些知识。

Nathan用了一个比喻:「想想你十年前学过的某个数学公式,现在让你推导你可能卡住。但如果有人给你前两步提示,你会突然想起来。RLVR就是在给模型这种提示,只不过提示的方式是『让它试100次,看哪次对了』。」

这种训练方式的优势在于可扩展性。传统RLHF有个著名论文叫《奖励模型过度优化的扩展定律》——意思是你训练太久,模型反而变差。但RLVR不一样。OpenAI的o1论文显示,如果你把训练计算量增加10倍,模型在评估指标上会线性提升。DeepSeek也重现了这个结果。

「这就是为什么大家都在押注RLVR,」Nathan说,「因为它遵循扩展定律。你砸钱进去,就能得到回报。」

那代价是什么?

计算量。Nathan估计,顶级实验室在预训练和后训练上花的GPU时间已经接近1:1。Greg Brockman(OpenAI联合创始人)也证实了这点。但这里有个技术细节:预训练是「计算密集型」,看的是FLOPs(每秒浮点运算次数);RLVR是「内存密集型」,因为模型要生成很长的推理过程,而注意力机制的内存需求是序列长度的平方级增长。

所以虽然GPU数量可能差不多,但预训练用的是「所有GPU疯狂做矩阵乘法」,RLVR用的是「GPU们等着模型慢慢生成十万个token」。

Sebastian补充:「GPT-4o如果开启深度思考模式,可能要跑一小时。想象一下,你的训练任务需要采样一小时,还要保证系统稳定处理这个过程。这完全是另一个级别的工程挑战。」


但这不是重点。

真正有意思的是接下来发生的事。当Claude 3.5 Opus在2025年10月发布时,它在X(推特)上引发了一场「有机增长的模因狂欢」。Nathan说这话时带着一种「我也不知道为什么」的困惑。几个月前Google的Gemini 1.5发布时,营销声量巨大,但后续讨论迅速冷却。Claude几乎没怎么宣传,却成了开发者社区的「真爱」。

「Anthropic有个优势:他们看起来最不混乱,」Nathan说,「在这个行业里,这居然成了竞争优势。」

他说的「混乱」指的是OpenAI。虽然OpenAI总能「落地」重大发布(ChatGPT、o1、Sora),但内部运作方式给人一种「永远在追逐下一个高影响力项目」的创业文化印象。相比之下,Google有足够的规模分离研究和产品,而Anthropic在企业市场上押注代码能力——这个赌注目前看起来很成功。

Sebastian提醒说,X上的热度和实际用户数是两回事。ChatGPT和Gemini的用户基数是数亿级,他们瞄准的是「想在日常生活中解决问题的普通人」。但Claude在开发者群体中的口碑确实不同寻常。

「我用了几周Claude Code,它几乎到了meme级别的火爆,」Nathan说,「它就是让你感觉温暖、有参与感。OpenAI的模型可能同样好,但感觉上就是粗糙一点。」


两个字:时机。

2026年,AI训练的核心战场已经从「如何让模型更大」转向「如何让模型在推理时更聪明」。这就是inference-time scaling(推理时扩展)。以前你输入问题,模型立刻开始输出第一个词。现在模型可能先沉默几秒、几分钟、甚至几小时,在内部生成一堆「隐藏思考」,然后再给你答案。

Sebastian用自己的经历举例:「我有次要赶播客录制,需要在本地GPU上跑一个长时间强化学习实验。结果出门前不小心拔了电源。我老婆已经在车里等我了,我就问ChatGPT最快给我一个Bash脚本,能串联多个实验并输出到日志文件。我用的是非思考模式,10秒钟拿到答案,插上电源就走了。」

Nathan正好相反。「我从来不用非思考模式,」他说,「我会同时开5个Pro查询,每个查找一篇特定论文或验证一个公式。我习惯了等待。」

这种差异背后是个深刻的权衡:速度 vs 智能。但更深层的问题是,当模型变得「太聪明」时会发生什么?


理论升华:为什么RLVR是「激活」而非「教学」

想象你在超市买电钻。你真正想要的不是电钻,是墙上的那个洞。PRD(产品需求文档)就是电钻,原型就是洞。

RLVR的逻辑类似。预训练是「买了一套完整的工具箱」,里面有电钻、锯子、扳手。但工具都锁在箱子里,你不知道怎么用。RLVR不是往箱子里塞新工具,而是教你「当你需要在墙上打洞时,应该拿出电钻,而不是锯子」。

这也解释了为什么Sebastian的实验只需要50步。如果Qwen真的在这50步里学会了数学,那就太魔幻了。实际上是,Qwen在预训练时见过类似问题(可能因为数据污染),RLVR只是在教它「遇到这类问题时,用这种格式输出答案」。

Nathan对此有保留意见:「数据污染问题很复杂。你没法做对照实验。我们不知道Qwen的预训练数据到底有什么。」但他承认,如果蒸馏(distillation)能工作,那说明知识确实可以在模型间迁移——这也间接支持了「知识在预训练,能力在后训练」的观点。


局限性:这招不是万能的

RLVR有个硬伤:它只适用于「可验证」的任务。数学题、代码、事实性问题——这些都有标准答案。但如果你问「如何写一篇有说服力的文章」,就没法自动验证对错了。

现在研究者在尝试「rubrics」(评分标准)。你先用另一个LLM生成一份「好答案长什么样」的描述,然后让训练模型反复尝试,看能不能匹配这个标准。但这本质上又回到了「LLM评判LLM」(LLM-as-a-judge),可靠性存疑。

另一个限制是计算成本的转移。预训练是一次性投入,训练完了能力就永久存在。推理时扩展是按次付费——每次用户提问,模型都要生成几千上万个token。如果你的模型半年就被下一代替换,那砸几千万美元做更长的预训练可能不划算,不如让用户「按需购买智能」。

Nathan说:「这是个数学问题。如果你有ChatGPT那么多用户,你需要便宜一点的模型。如果你是小公司,可能愿意给少数用户提供昂贵的深度思考模式。」


Sebastian最后说了一段话,很多人可能会忽略,但我觉得是全场最重要的观察。

「我担心的不是AI会不会取代程序员,」他说,「我担心的是,如果你用AI做完所有编程工作,两年后,你还会觉得工作有意义吗?你还会为自己构建的东西感到骄傲吗?」

他举了自己的例子:网站开发他不喜欢,所以全交给AI。但如果是一个复杂的bug,他会先自己找,找不到再问LLM。「因为找到bug的那一刻,是世界上最棒的感觉。如果你直接问AI,你永远体会不到。」

那是2026年2月的对话。三个月后会发生什么,没人知道。但有一件事是确定的:那些还在争论「AI会不会取代人类」的人,已经错过了真正的问题。

真正的问题是:当AI成为你的工具,你想用它来解放自己去做什么?