月之暗面的反直觉训练法:如何用「反常规」换来4.5倍速度
AI Principles

月之暗面的反直觉训练法:如何用「反常规」换来4.5倍速度

B
Brad W. Morris(Discord ID: Brad W. Morris),Latent Space Paper Club 社区成员
2026年3月18日YouTube
返回首页

Anthropic 发布多智能体深度研究系统的第二天,月之暗面就放出了 Kimmy 2.5。

这个时间节点很微妙。两家公司几乎同时押注同一个方向:让 AI 学会把任务拆成并行子任务,用多个智能体协同工作。但月之暗面做了一件更激进的事——他们把这个能力直接训练进了模型里。

在 Discord 的 Paper Club 上,Brad W. Morris 拆解这篇论文时说了一个细节:「Kimmy 的并行智能体系统,速度快了4.5倍,但训练时只更新了调度器,子智能体全程冻结。」

这听起来很反常识。

冻结智能体的训练悖论

传统的多智能体系统训练,追求的是端到端联合优化。所有智能体一起学习,一起进化。这符合我们对「学习」的直觉理解。

但月之暗面的工程师反其道而行之。他们用强化学习训练一个「调度器」智能体,专门负责把任务拆解成可并行的子任务。而那些真正干活的子智能体,权重参数在训练过程中完全冻结。

这个设计带来了一个巧妙的副作用:子智能体的输出被当作「环境观察」,而不是可微分的目标。调度器必须学会适应这些固定的工具,而不是让工具来适应自己。

就像给一个指挥家固定的乐团成员。他不能改变每个乐手的演奏水平,只能学会如何编排他们的协作顺序。

这种约束反而让系统更稳定。Brad 展示的数据显示,在宽度搜索和深度搜索任务上,Kimmy 2.5 的并行智能体架构比传统串行方式快4.5倍,准确率还提升了个位数百分点。

但速度提升不是目的。月之暗面真正想解决的,是「智能体系统的串行瓶颈」。

智能体为什么这么慢?

如果你用过 Cursor 或者 Devin,你会发现一个共同的痛点:等待。

智能体执行任务的过程,往往是严格串行的。第一步完成,才能启动第二步。第二步的输出,作为第三步的输入。每一步都要等前一步彻底结束。

Brad 在讲解时举了个例子:「假设你要做一个涉及大量文件加载的长文档问答任务。传统串行智能体会先读第一个文件,处理完,再读第二个。Kimmy 2.5 的调度器会意识到这些任务可以并行,直接派出5个子智能体同时加载不同文件。」

这种并行化能力,不是通过硬编码规则实现的。月之暗面用强化学习让调度器自己学会判断:哪些任务可以并行,哪些必须串行,什么时候该拆分任务,什么时候该直接执行。

训练数据的选择也很讲究。他们不会用数学题来训练并行调度能力——因为数学题天然是串行的。相反,他们专门选择那些「自然适合并行化」的任务:宽度搜索、深度搜索、长文档 QA、大规模文件加载。

这些任务的共同特点是:子任务之间依赖关系弱,可以同时执行。调度器在这些场景中不断试错,逐渐学会识别并行化的机会。

但这里有个隐藏的技术难点:怎么让模型既学会并行,又不会「为了并行而并行」?

奖励函数里的平衡术

月之暗面设计了一个三维奖励函数:

  1. 实例化奖励:创建子智能体需要付出代价
  2. 子智能体完成率:有多少子任务真正完成了
  3. 测试结果:最终答案对不对

第一项很关键。如果不给「创建子智能体」设置成本,模型会学到一个极端策略:无脑派出一堆子智能体,反正越多越好。

但过度并行会带来三个问题:资源浪费、协调开销、结果冲突。所以必须让模型付出代价,逼它思考「这个任务真的需要拆分吗」。

Brad 在演示时特别提到了一个细节:「他们引入了一个叫 R_parallel 的奖励项,专门用来缓解『串行坍缩』。这个术语的意思是,模型可能会学到一个懒惰策略——全部串行执行,这样虽然慢,但至少不会出错。」

这个设计背后的逻辑很清晰:不给模型明确的「并行化就是好」的奖励,而是让它在速度、准确率、资源成本之间自己找平衡。

最终的训练结果是:Kimmy 2.5 学会了在适合的场景主动并行,在不适合的场景保持串行。这种判断能力,是硬编码规则很难做到的。

但并行智能体只是 Kimmy 2.5 的一半故事。另一半更反常识。

视觉能力的「零微调」悖论

大部分多模态模型的训练路径是:先训练文本能力,再「插入」视觉模块。

月之暗面反过来做。

在 Kimmy 2.5 的 15 万亿 token 训练过程中,第一个阶段就是专门训练视觉编码器。用 1 万亿 token 的图像-文本对和视频-文本对,让模型先学会「看」。

然后是联合训练阶段:15 万亿 token 同时处理文本和视觉输入。但这里有个比例问题——如果视觉和文本各占 50%,效果反而不好。

他们测试了三种视觉注入时机:早期(训练刚开始)、中期(训练进行到一半)、后期(训练接近尾声)。

结果显示:在训练的第 0% 时刻就开始引入视觉,且保持 10:90 的视觉-文本比例,效果最好。

Brad 对这个发现很兴奋:「这意味着如果你在预训练早期就让模型接触多模态数据,即使比例很低,也能让它形成更强的多模态理解能力。」

但真正让人意外的是「零视觉微调」这个技术。

在 SFT(监督微调)阶段,月之暗面没有专门准备视觉相关的训练数据。他们只用纯文本的 SFT 数据,让模型学习指令遵循能力。

结果呢?模型自动激活了视觉能力。

它学会了用 IPython 操作图像:裁剪、旋转、翻转、缩放、OCR、定位、计数。这些能力没有被明确训练过,是模型从早期的视觉预训练中「迁移」过来的。

这种泛化能力,比手工标注视觉任务数据的效果还要好。Brad 的解释是:「手工标注的数据会局限在你能想到的操作上。但如果让模型自己探索,它会发现更多样化的图像处理方式。」

这是一个典型的「少即是多」案例。

Alec Radford 的另一个影子

Brad 在讲解开始前,专门放了一条推特:「Alec Radford 到底做过多少开创性工作?」

Radford 是 GPT-2、CLIP、Whisper 的核心作者。但很少有人注意到,他在 GPT-2 的早期实验中发现了一个现象:模型在纯英文数据上训练,但因为训练数据中偶然出现了少量法语样本,模型居然学会了法语。

这个「意外泛化」现象,后来被称为「跨语言迁移」。

Brad 认为,Kimmy 2.5 的「零视觉微调」技术,和 Radford 当年的发现有相似的底层逻辑:如果模型在预训练阶段见过足够多样化的数据,它会在下游任务中展现出超出训练目标的泛化能力。

这也解释了为什么月之暗面要把视觉训练放在最早期。他们不是在「教」模型如何处理图像,而是在给模型创造一个多模态的「思维空间」。后续的文本训练,会自动激活这个空间里的能力。

但这个方法有一个前提:你需要足够大的预训练规模。15 万亿 token 不是每个团队都能负担的。

Rubrics:下一个 RL 热点

在讲到强化学习训练时,Brad 提到了一个正在兴起的技术方向:Rubrics(评分标准)。

传统的 RL 训练,依赖「可验证的结果」。比如代码能不能跑通,答案对不对,用户有没有点赞。

但很多任务没有明确的对错。写一篇文章,设计一个界面,生成一段创意文案——这些输出的质量是模糊的。

Rubrics 的思路是:用结构化的评分标准替代单一的对错判断。定义多个评估维度(比如创意性、准确性、可读性),每个维度给出具体的评分规则。

月之暗面在训练 Kimmy 2.5 时,大量使用了 Rubrics 技术。他们不会简单地给模型一个「任务完成」的奖励,而是拆解成多个子目标:任务拆解的合理性、子任务的完成率、并行化的效率、最终结果的准确性。

Brad 在聊天区发了一个链接:「有人刚整理了 8 篇 Rubrics 相关论文,这个方向值得深挖。」

这个趋势背后的逻辑很清楚:随着 AI 的任务从「回答问题」转向「创造内容」,我们需要更精细化的评估方式。Rubrics 提供了一个框架。

但它也带来了新的挑战:谁来定义这些评分标准?如何避免标准本身的偏见?这些问题还没有答案。

一万亿参数的基础设施难题

Kimmy 2.5 的模型规模是 1 万亿参数,激活参数 32B(稀疏激活比例 48)。

这个规模意味着训练基础设施本身就是一个技术难题。Brad 在最后简单提到了论文中的 4.5 节:如何在多 GPU 上高效训练这样的模型。

这部分内容极其技术化,涉及流水线并行、张量并行、混合精度训练。但有一个细节值得注意:不同的训练阶段,对 GPU 的利用方式是不同的。

在纯视觉编码器训练阶段,大部分计算集中在视觉模块。在联合训练阶段,计算负载更均匀。在 RL 训练阶段,调度器的更新频率远高于子智能体。

如何让 GPU 集群在这些不同阶段都保持高效利用率,是一个工程优化问题。月之暗面在论文里提供了一些解决方案,但 Brad 坦白:「这部分太硬核了,我们跳过。」

这也是为什么大模型训练仍然是少数玩家的游戏。不仅需要算力,还需要极其精细的系统优化。

结语

Brad 在最后说了一句话:「这篇论文感觉像是两篇论文合在一起,一半讲多模态训练,一半讲并行智能体。但它们有一个共同点:反直觉的训练方法。」

冻结子智能体,只训练调度器。早期注入低比例视觉数据,而不是后期插入。用纯文本 SFT 激活视觉能力,而不是专门准备视觉训练集。

这些设计都违背了我们对「如何训练 AI」的常规理解。但它们都有效。

或许这就是月之暗面这个名字的隐喻:有些最重要的能力,藏在看不见的地方。