降噪 - AI精选内容平台

周日晚上九点，Olive Song 刚结束一轮强化学习实验的数据分析。

她是 MiniMax 的高级研究员，负责强化学习和模型评估。在这家公司，有人白天睡觉凌晨跑实验，有人跟着 GPU 的节奏安排作息。

「早上 ICU，晚上 KTV。早上看到好结果，晚上可能就变成坏结果了。」

这是她对自己工作状态的总结。早上看到一组漂亮的实验数据，兴奋得像中了彩票。下午发现结果翻车，又瞬间坠入谷底。但她说，真正的坏消息只有一种——发现问题却不知道原因。只要能把问题拆开，就又变成了好消息。

这种心态，或许能解释 MiniMax 最近的节奏。从 2.1 到 2.2，他们几乎每个月发布一个新版本。不是渐进式微调，是每一代都在解决上一代暴露的系统性问题。

而 Olive 最近在解决的核心问题，可能会颠覆很多人对开源模型的认知。

开源模型到底差在哪？

问一百个人，九十个会说：算力。

Olive 的答案不一样。

「我觉得开源模型现在最大的短板，不是推理能力，不是代码生成，而是对不同环境的适应能力。」

她举了一个具体的例子。用 Claude 写代码的人都知道，它在各种编程环境里表现稳定——不同的工具定义、不同的项目结构、不同的依赖管理方式，它都能接住。但开源模型做不到。换一个环境，表现就可能断崖式下降。

这个问题听起来像是「模型不够聪明」，实际上是工程问题。

「算力是一个方面，但我们更有信心的是另一面——如何定义问题，如何结构化地逼近它。」

这句话是 MiniMax 做开源模型的底层逻辑。

一个关于 BF32 精度的侦探故事

Olive 讲了一个内部故事，关于他们在做 MiniMax-M1 时的一次关键发现。

当时实验遇到瓶颈。准确率到了一个位置就不动了，怎么调参数都没用。团队没有换算法，没有加数据，而是做了一件很「笨」的事——逐层检查模型的 loss profile。

一层一层翻。

最后发现问题出在训练精度上。将特定层的精度从 BF16 保持到 FP32，模型立刻突破了瓶颈。

这不是什么论文里会大书特书的创新。但这恰恰是 Olive 想说明的——在真正的模型开发中，工程直觉比算法灵感更救命。

「我们的方法论是逼近理论极限。强化学习有理论上的最优解，我们的实现和理论之间一定有 gap。找到那个 gap，一层一层拆，拆到最后就是答案。」

她在学校时从来不知道这一点。

在实验室里做的都是玩具规模。等你真的把数据、算力、人全部 scale up，你才会发现——工程能力才是那个决定胜负的变量。

RL 模型的「黑客行为」

强化学习有一个让外行觉得神奇、让研究员觉得头疼的特性：模型会想尽一切办法完成目标，哪怕手段完全出乎意料。

Olive 把这叫做「hack」。

「模型会用各种方式来达成目标。它大量使用 bash 命令，有时候做出的操作在安全层面是不可接受的。」

这不是 bug。这是强化学习的本质——你给了它一个奖励函数，它就会穷尽所有路径去最大化那个奖励。

问题在于，开发者对模型的行为有预期，模型的实际行为和预期之间往往存在巨大鸿沟。

所以我们在人类对齐上投入了大量精力。模型不能为了达成最终目标就放飞自我。它必须在安全的边界内工作。

这也是她为 MiniMax 2.2 设定的核心目标之一——不只是让模型更强，而是让它和人类专家的协作更优雅。

「我希望模型能真正和专家一起工作。不是替代，是协作。」

她估算这个目标大概需要两到三个月。而更短期的目标——更好的环境适配、更长的 horizon 支持——会先在 2.2 中落地。

Agentic RL 的三个门槛

聊到 agentic 强化学习，Olive 把它拆成了三个核心问题：

第一，目标定义。 尤其在长 horizon 任务中，你需要的目标必须又难又多样。不是那种模型做对十次就能通关的简单题，而是真正考验策略规划的复杂目标。

第二，环境工程。 这是被严重低估的一环。你需要大规模、多样化的环境——不只是代码编辑器，还有各种工具、各种工作场景。环境的丰富程度直接决定了模型的泛化能力。

第三，基础设施。 模型需要在极长的 horizon 里做 rollout，这对 GPU 利用效率提出了极高要求。MiniMax 有一个专门的团队在优化这件事——目标是用最少的算力训练最多的东西。

这三个门槛，没有一个是靠「发一篇论文」能解决的。全是工程。

开源是一种信仰

MiniMax 选择做开源并不是没有代价的。Olive 很坦诚：「API 调用量确实会因此减少。这对商业收入有影响。」

但研究团队从第一天起就想做开源。

「开源社区太棒了。我加入团队学到的第一件事就是这个。」

她们的使用方式也很开放。团队会大量使用其他公司的开源模型和开源 agent 框架来测试自己的模型。看别人的代码逻辑，分析别人的设计思路，然后反思自己的方法是不是在同一个方向上。

我们相信，和开源社区一起，能构建更好的模型。

这不是公关话。她周日晚上九点还在跑实验、午夜新模型发布她第一时间下载测试——这种投入不是为了写新闻稿。

「问题的解决就是发现」

采访最后，Olive 被问到一个大问题：你相信 AGI 吗？

她讲了一个面试时的故事。当时 MiniMax 的 CEO 也问了她同样的问题。

她的回答当时是什么，现在还是什么：

「每个人对 AGI 的定义都不一样，而且这个定义本身每天都在变。我觉得更重要的是，我们朝着自己理解的那个方向走。当我们看到它的时候，我们自然就知道那是 AGI。」

她最后提到了一本对她影响最大的书——《The Art of Creativity》。她在本科时读的，具体书名记得不太确切了。

「那本书改变了我看待自己思维的方式，改变了我看待问题的方式。」

她用一句话做了总结：

对我来说，解决问题其实就是发现。

周日晚上九点，新一轮实验的数据正在跑。下一个发现，可能就在今晚。