降噪 - AI精选内容平台

Anthropic 发布多智能体深度研究系统的第二天，月之暗面就放出了 Kimmy 2.5。

这个时间节点很微妙。两家公司几乎同时押注同一个方向：让 AI 学会把任务拆成并行子任务，用多个智能体协同工作。但月之暗面做了一件更激进的事——他们把这个能力直接训练进了模型里。

在 Discord 的 Paper Club 上，Brad W. Morris 拆解这篇论文时说了一个细节：「Kimmy 的并行智能体系统，速度快了4.5倍，但训练时只更新了调度器，子智能体全程冻结。」

这听起来很反常识。

冻结智能体的训练悖论

传统的多智能体系统训练，追求的是端到端联合优化。所有智能体一起学习，一起进化。这符合我们对「学习」的直觉理解。

但月之暗面的工程师反其道而行之。他们用强化学习训练一个「调度器」智能体，专门负责把任务拆解成可并行的子任务。而那些真正干活的子智能体，权重参数在训练过程中完全冻结。

这个设计带来了一个巧妙的副作用：子智能体的输出被当作「环境观察」，而不是可微分的目标。调度器必须学会适应这些固定的工具，而不是让工具来适应自己。

就像给一个指挥家固定的乐团成员。他不能改变每个乐手的演奏水平，只能学会如何编排他们的协作顺序。

这种约束反而让系统更稳定。Brad 展示的数据显示，在宽度搜索和深度搜索任务上，Kimmy 2.5 的并行智能体架构比传统串行方式快4.5倍，准确率还提升了个位数百分点。

但速度提升不是目的。月之暗面真正想解决的，是「智能体系统的串行瓶颈」。

智能体为什么这么慢？

如果你用过 Cursor 或者 Devin，你会发现一个共同的痛点：等待。

智能体执行任务的过程，往往是严格串行的。第一步完成，才能启动第二步。第二步的输出，作为第三步的输入。每一步都要等前一步彻底结束。

Brad 在讲解时举了个例子：「假设你要做一个涉及大量文件加载的长文档问答任务。传统串行智能体会先读第一个文件，处理完，再读第二个。Kimmy 2.5 的调度器会意识到这些任务可以并行，直接派出5个子智能体同时加载不同文件。」

这种并行化能力，不是通过硬编码规则实现的。月之暗面用强化学习让调度器自己学会判断：哪些任务可以并行，哪些必须串行，什么时候该拆分任务，什么时候该直接执行。

训练数据的选择也很讲究。他们不会用数学题来训练并行调度能力——因为数学题天然是串行的。相反，他们专门选择那些「自然适合并行化」的任务：宽度搜索、深度搜索、长文档 QA、大规模文件加载。

这些任务的共同特点是：子任务之间依赖关系弱，可以同时执行。调度器在这些场景中不断试错，逐渐学会识别并行化的机会。

但这里有个隐藏的技术难点：怎么让模型既学会并行，又不会「为了并行而并行」？

奖励函数里的平衡术

月之暗面设计了一个三维奖励函数：

实例化奖励：创建子智能体需要付出代价
子智能体完成率：有多少子任务真正完成了
测试结果：最终答案对不对

第一项很关键。如果不给「创建子智能体」设置成本，模型会学到一个极端策略：无脑派出一堆子智能体，反正越多越好。

但过度并行会带来三个问题：资源浪费、协调开销、结果冲突。所以必须让模型付出代价，逼它思考「这个任务真的需要拆分吗」。

Brad 在演示时特别提到了一个细节：「他们引入了一个叫 R_parallel 的奖励项，专门用来缓解『串行坍缩』。这个术语的意思是，模型可能会学到一个懒惰策略——全部串行执行，这样虽然慢，但至少不会出错。」

这个设计背后的逻辑很清晰：不给模型明确的「并行化就是好」的奖励，而是让它在速度、准确率、资源成本之间自己找平衡。

最终的训练结果是：Kimmy 2.5 学会了在适合的场景主动并行，在不适合的场景保持串行。这种判断能力，是硬编码规则很难做到的。

但并行智能体只是 Kimmy 2.5 的一半故事。另一半更反常识。

视觉能力的「零微调」悖论

大部分多模态模型的训练路径是：先训练文本能力，再「插入」视觉模块。

月之暗面反过来做。

在 Kimmy 2.5 的 15 万亿 token 训练过程中，第一个阶段就是专门训练视觉编码器。用 1 万亿 token 的图像-文本对和视频-文本对，让模型先学会「看」。

然后是联合训练阶段：15 万亿 token 同时处理文本和视觉输入。但这里有个比例问题——如果视觉和文本各占 50%，效果反而不好。

他们测试了三种视觉注入时机：早期（训练刚开始）、中期（训练进行到一半）、后期（训练接近尾声）。

结果显示：在训练的第 0% 时刻就开始引入视觉，且保持 10:90 的视觉-文本比例，效果最好。

Brad 对这个发现很兴奋：「这意味着如果你在预训练早期就让模型接触多模态数据，即使比例很低，也能让它形成更强的多模态理解能力。」

但真正让人意外的是「零视觉微调」这个技术。

在 SFT（监督微调）阶段，月之暗面没有专门准备视觉相关的训练数据。他们只用纯文本的 SFT 数据，让模型学习指令遵循能力。

结果呢？模型自动激活了视觉能力。

它学会了用 IPython 操作图像：裁剪、旋转、翻转、缩放、OCR、定位、计数。这些能力没有被明确训练过，是模型从早期的视觉预训练中「迁移」过来的。

这种泛化能力，比手工标注视觉任务数据的效果还要好。Brad 的解释是：「手工标注的数据会局限在你能想到的操作上。但如果让模型自己探索，它会发现更多样化的图像处理方式。」

这是一个典型的「少即是多」案例。

Alec Radford 的另一个影子

Brad 在讲解开始前，专门放了一条推特：「Alec Radford 到底做过多少开创性工作？」

Radford 是 GPT-2、CLIP、Whisper 的核心作者。但很少有人注意到，他在 GPT-2 的早期实验中发现了一个现象：模型在纯英文数据上训练，但因为训练数据中偶然出现了少量法语样本，模型居然学会了法语。

这个「意外泛化」现象，后来被称为「跨语言迁移」。

Brad 认为，Kimmy 2.5 的「零视觉微调」技术，和 Radford 当年的发现有相似的底层逻辑：如果模型在预训练阶段见过足够多样化的数据，它会在下游任务中展现出超出训练目标的泛化能力。

这也解释了为什么月之暗面要把视觉训练放在最早期。他们不是在「教」模型如何处理图像，而是在给模型创造一个多模态的「思维空间」。后续的文本训练，会自动激活这个空间里的能力。

但这个方法有一个前提：你需要足够大的预训练规模。15 万亿 token 不是每个团队都能负担的。

Rubrics：下一个 RL 热点

在讲到强化学习训练时，Brad 提到了一个正在兴起的技术方向：Rubrics（评分标准）。

传统的 RL 训练，依赖「可验证的结果」。比如代码能不能跑通，答案对不对，用户有没有点赞。

但很多任务没有明确的对错。写一篇文章，设计一个界面，生成一段创意文案——这些输出的质量是模糊的。

Rubrics 的思路是：用结构化的评分标准替代单一的对错判断。定义多个评估维度（比如创意性、准确性、可读性），每个维度给出具体的评分规则。

月之暗面在训练 Kimmy 2.5 时，大量使用了 Rubrics 技术。他们不会简单地给模型一个「任务完成」的奖励，而是拆解成多个子目标：任务拆解的合理性、子任务的完成率、并行化的效率、最终结果的准确性。

Brad 在聊天区发了一个链接：「有人刚整理了 8 篇 Rubrics 相关论文，这个方向值得深挖。」

这个趋势背后的逻辑很清楚：随着 AI 的任务从「回答问题」转向「创造内容」，我们需要更精细化的评估方式。Rubrics 提供了一个框架。

但它也带来了新的挑战：谁来定义这些评分标准？如何避免标准本身的偏见？这些问题还没有答案。

一万亿参数的基础设施难题

Kimmy 2.5 的模型规模是 1 万亿参数，激活参数 32B（稀疏激活比例 48）。

这个规模意味着训练基础设施本身就是一个技术难题。Brad 在最后简单提到了论文中的 4.5 节：如何在多 GPU 上高效训练这样的模型。

这部分内容极其技术化，涉及流水线并行、张量并行、混合精度训练。但有一个细节值得注意：不同的训练阶段，对 GPU 的利用方式是不同的。

在纯视觉编码器训练阶段，大部分计算集中在视觉模块。在联合训练阶段，计算负载更均匀。在 RL 训练阶段，调度器的更新频率远高于子智能体。

如何让 GPU 集群在这些不同阶段都保持高效利用率，是一个工程优化问题。月之暗面在论文里提供了一些解决方案，但 Brad 坦白：「这部分太硬核了，我们跳过。」

这也是为什么大模型训练仍然是少数玩家的游戏。不仅需要算力，还需要极其精细的系统优化。

结语

Brad 在最后说了一句话：「这篇论文感觉像是两篇论文合在一起，一半讲多模态训练，一半讲并行智能体。但它们有一个共同点：反直觉的训练方法。」

冻结子智能体，只训练调度器。早期注入低比例视觉数据，而不是后期插入。用纯文本 SFT 激活视觉能力，而不是专门准备视觉训练集。

这些设计都违背了我们对「如何训练 AI」的常规理解。但它们都有效。

或许这就是月之暗面这个名字的隐喻：有些最重要的能力，藏在看不见的地方。

月之暗面的反直觉训练法：如何用「反常规」换来4.5倍速度