降噪 - AI精选内容平台

2026年1月，当DeepSeek发布R1模型时，整个AI圈炸了。不是因为它多聪明，而是因为它「太便宜」——据称只花了500万美元训练费用，就达到了接近GPT-4的水平。如果你还在相信「AI进步=烧更多钱」，你可能正站在被颠覆的一方。

Sebastian Raschka拿着一个Qwen 2.5基础模型做实验。这个模型在数学测试集MATH 500上的准确率只有15%。他没有重新预训练，没有砸几百万美元，只是用RLVR方法训练了50步。几分钟后，准确率变成了50%。

「你没法在50步里教会模型任何新的数学知识，」Sebastian说，「知识已经在预训练阶段装进去了。你只是在解锁它。」

Sebastian是《从零构建大语言模型》的作者，机器学习研究员。他办公桌上永远放着一本半翻开的技术论文，习惯在凌晨5点起床写代码。他说这个实验时，用的是那种「你肯定不信但我确实做到了」的语气。

但故事不止于此。

2025年，AI领域的主战场不再是「谁的模型最大」，而是「谁能用更少的钱做出更聪明的模型」。这场转变的核心人物是Nathan Lambert，Allen Institute for AI的后训练负责人，《强化学习人类反馈》一书作者。他的团队在11月发布了一个30亿参数的模型，训练了5天。到了12月，他们让训练跑了3周半，模型明显变好了，于是又发了一版。

「这在2024年根本不可能，」Nathan说，「那时候没人敢让强化学习跑这么久。」

问题出在训练方式上。

传统的RLHF（强化学习人类反馈）像是在教模型「说话风格」。你问100个人「哪个回答更好」，模型学会了某种平均值。但到了某个点，继续训练就没意义了——就像你问亲戚该买什么笔记本电脑，有人看重续航，有人看重性能，两个答案都对，但你没法继续优化「正确性」。

RLVR不一样。

RLVR如何用「失败」训练出聪明模型

RLVR全称是Reinforcement Learning with Verifiable Rewards，中文叫「可验证奖励的强化学习」。这个名字是Nathan的团队在DeepSeek之前就起好的，虽然DeepSeek才是把它规模化的那个人。

原理很简单：给模型一道数学题，告诉它答案是什么，但不告诉它怎么做。然后让模型自己试。

第一次，模型可能算错了。第二次，它试着分步骤写。第三次，它写到一半发现不对，自己说「啊，我算错了，让我重来」。第四次，它对了。

「这就是aha moment，」Sebastian说，「模型自己意识到错误并修正。这不是我们编程进去的，是它从训练中学会的。」

但这里有个关键点：模型不是真的在「学数学」。Qwen 2.5的基础模型在预训练阶段已经见过海量数学题——包括arXiv上的论文，Stack Exchange上的讨论，甚至可能见过MATH数据集的变体（这也是为什么有人质疑Qwen存在数据污染）。RLVR只是在「激活」这些知识。

Nathan用了一个比喻：「想想你十年前学过的某个数学公式，现在让你推导你可能卡住。但如果有人给你前两步提示，你会突然想起来。RLVR就是在给模型这种提示，只不过提示的方式是『让它试100次，看哪次对了』。」

这种训练方式的优势在于可扩展性。传统RLHF有个著名论文叫《奖励模型过度优化的扩展定律》——意思是你训练太久，模型反而变差。但RLVR不一样。OpenAI的o1论文显示，如果你把训练计算量增加10倍，模型在评估指标上会线性提升。DeepSeek也重现了这个结果。

「这就是为什么大家都在押注RLVR，」Nathan说，「因为它遵循扩展定律。你砸钱进去，就能得到回报。」

那代价是什么？

计算量。Nathan估计，顶级实验室在预训练和后训练上花的GPU时间已经接近1:1。Greg Brockman（OpenAI联合创始人）也证实了这点。但这里有个技术细节：预训练是「计算密集型」，看的是FLOPs（每秒浮点运算次数）；RLVR是「内存密集型」，因为模型要生成很长的推理过程，而注意力机制的内存需求是序列长度的平方级增长。

所以虽然GPU数量可能差不多，但预训练用的是「所有GPU疯狂做矩阵乘法」，RLVR用的是「GPU们等着模型慢慢生成十万个token」。

Sebastian补充：「GPT-4o如果开启深度思考模式，可能要跑一小时。想象一下，你的训练任务需要采样一小时，还要保证系统稳定处理这个过程。这完全是另一个级别的工程挑战。」

但这不是重点。

真正有意思的是接下来发生的事。当Claude 3.5 Opus在2025年10月发布时，它在X（推特）上引发了一场「有机增长的模因狂欢」。Nathan说这话时带着一种「我也不知道为什么」的困惑。几个月前Google的Gemini 1.5发布时，营销声量巨大，但后续讨论迅速冷却。Claude几乎没怎么宣传，却成了开发者社区的「真爱」。

「Anthropic有个优势：他们看起来最不混乱，」Nathan说，「在这个行业里，这居然成了竞争优势。」

他说的「混乱」指的是OpenAI。虽然OpenAI总能「落地」重大发布（ChatGPT、o1、Sora），但内部运作方式给人一种「永远在追逐下一个高影响力项目」的创业文化印象。相比之下，Google有足够的规模分离研究和产品，而Anthropic在企业市场上押注代码能力——这个赌注目前看起来很成功。

Sebastian提醒说，X上的热度和实际用户数是两回事。ChatGPT和Gemini的用户基数是数亿级，他们瞄准的是「想在日常生活中解决问题的普通人」。但Claude在开发者群体中的口碑确实不同寻常。

「我用了几周Claude Code，它几乎到了meme级别的火爆，」Nathan说，「它就是让你感觉温暖、有参与感。OpenAI的模型可能同样好，但感觉上就是粗糙一点。」

两个字：时机。

2026年，AI训练的核心战场已经从「如何让模型更大」转向「如何让模型在推理时更聪明」。这就是inference-time scaling（推理时扩展）。以前你输入问题，模型立刻开始输出第一个词。现在模型可能先沉默几秒、几分钟、甚至几小时，在内部生成一堆「隐藏思考」，然后再给你答案。

Sebastian用自己的经历举例：「我有次要赶播客录制，需要在本地GPU上跑一个长时间强化学习实验。结果出门前不小心拔了电源。我老婆已经在车里等我了，我就问ChatGPT最快给我一个Bash脚本，能串联多个实验并输出到日志文件。我用的是非思考模式，10秒钟拿到答案，插上电源就走了。」

Nathan正好相反。「我从来不用非思考模式，」他说，「我会同时开5个Pro查询，每个查找一篇特定论文或验证一个公式。我习惯了等待。」

这种差异背后是个深刻的权衡：速度 vs 智能。但更深层的问题是，当模型变得「太聪明」时会发生什么？

理论升华：为什么RLVR是「激活」而非「教学」

想象你在超市买电钻。你真正想要的不是电钻，是墙上的那个洞。PRD（产品需求文档）就是电钻，原型就是洞。

RLVR的逻辑类似。预训练是「买了一套完整的工具箱」，里面有电钻、锯子、扳手。但工具都锁在箱子里，你不知道怎么用。RLVR不是往箱子里塞新工具，而是教你「当你需要在墙上打洞时，应该拿出电钻，而不是锯子」。

这也解释了为什么Sebastian的实验只需要50步。如果Qwen真的在这50步里学会了数学，那就太魔幻了。实际上是，Qwen在预训练时见过类似问题（可能因为数据污染），RLVR只是在教它「遇到这类问题时，用这种格式输出答案」。

Nathan对此有保留意见：「数据污染问题很复杂。你没法做对照实验。我们不知道Qwen的预训练数据到底有什么。」但他承认，如果蒸馏（distillation）能工作，那说明知识确实可以在模型间迁移——这也间接支持了「知识在预训练，能力在后训练」的观点。

局限性：这招不是万能的

RLVR有个硬伤：它只适用于「可验证」的任务。数学题、代码、事实性问题——这些都有标准答案。但如果你问「如何写一篇有说服力的文章」，就没法自动验证对错了。

现在研究者在尝试「rubrics」（评分标准）。你先用另一个LLM生成一份「好答案长什么样」的描述，然后让训练模型反复尝试，看能不能匹配这个标准。但这本质上又回到了「LLM评判LLM」（LLM-as-a-judge），可靠性存疑。

另一个限制是计算成本的转移。预训练是一次性投入，训练完了能力就永久存在。推理时扩展是按次付费——每次用户提问，模型都要生成几千上万个token。如果你的模型半年就被下一代替换，那砸几千万美元做更长的预训练可能不划算，不如让用户「按需购买智能」。

Nathan说：「这是个数学问题。如果你有ChatGPT那么多用户，你需要便宜一点的模型。如果你是小公司，可能愿意给少数用户提供昂贵的深度思考模式。」

Sebastian最后说了一段话，很多人可能会忽略，但我觉得是全场最重要的观察。

「我担心的不是AI会不会取代程序员，」他说，「我担心的是，如果你用AI做完所有编程工作，两年后，你还会觉得工作有意义吗？你还会为自己构建的东西感到骄傲吗？」

他举了自己的例子：网站开发他不喜欢，所以全交给AI。但如果是一个复杂的bug，他会先自己找，找不到再问LLM。「因为找到bug的那一刻，是世界上最棒的感觉。如果你直接问AI，你永远体会不到。」

那是2026年2月的对话。三个月后会发生什么，没人知道。但有一件事是确定的：那些还在争论「AI会不会取代人类」的人，已经错过了真正的问题。

真正的问题是：当AI成为你的工具，你想用它来解放自己去做什么？

2026年AI全景：中美竞争、Claude 4.5 Opus爆火、开源模型崛起与AGI时间线

金句精选

RLVR如何用「失败」训练出聪明模型

理论升华：为什么RLVR是「激活」而非「教学」

局限性：这招不是万能的