周日晚上九点,Olive Song 刚结束一轮强化学习实验的数据分析。
她是 MiniMax 的高级研究员,负责强化学习和模型评估。在这家公司,有人白天睡觉凌晨跑实验,有人跟着 GPU 的节奏安排作息。
「早上 ICU,晚上 KTV。早上看到好结果,晚上可能就变成坏结果了。」
这是她对自己工作状态的总结。早上看到一组漂亮的实验数据,兴奋得像中了彩票。下午发现结果翻车,又瞬间坠入谷底。但她说,真正的坏消息只有一种——发现问题却不知道原因。只要能把问题拆开,就又变成了好消息。
这种心态,或许能解释 MiniMax 最近的节奏。从 2.1 到 2.2,他们几乎每个月发布一个新版本。不是渐进式微调,是每一代都在解决上一代暴露的系统性问题。
而 Olive 最近在解决的核心问题,可能会颠覆很多人对开源模型的认知。
开源模型到底差在哪?
问一百个人,九十个会说:算力。
Olive 的答案不一样。
「我觉得开源模型现在最大的短板,不是推理能力,不是代码生成,而是对不同环境的适应能力。」
她举了一个具体的例子。用 Claude 写代码的人都知道,它在各种编程环境里表现稳定——不同的工具定义、不同的项目结构、不同的依赖管理方式,它都能接住。但开源模型做不到。换一个环境,表现就可能断崖式下降。
这个问题听起来像是「模型不够聪明」,实际上是工程问题。
「算力是一个方面,但我们更有信心的是另一面——如何定义问题,如何结构化地逼近它。」
这句话是 MiniMax 做开源模型的底层逻辑。
一个关于 BF32 精度的侦探故事
Olive 讲了一个内部故事,关于他们在做 MiniMax-M1 时的一次关键发现。
当时实验遇到瓶颈。准确率到了一个位置就不动了,怎么调参数都没用。团队没有换算法,没有加数据,而是做了一件很「笨」的事——逐层检查模型的 loss profile。
一层一层翻。
最后发现问题出在训练精度上。将特定层的精度从 BF16 保持到 FP32,模型立刻突破了瓶颈。
这不是什么论文里会大书特书的创新。但这恰恰是 Olive 想说明的——在真正的模型开发中,工程直觉比算法灵感更救命。
「我们的方法论是逼近理论极限。强化学习有理论上的最优解,我们的实现和理论之间一定有 gap。找到那个 gap,一层一层拆,拆到最后就是答案。」
她在学校时从来不知道这一点。
在实验室里做的都是玩具规模。等你真的把数据、算力、人全部 scale up,你才会发现——工程能力才是那个决定胜负的变量。
RL 模型的「黑客行为」
强化学习有一个让外行觉得神奇、让研究员觉得头疼的特性:模型会想尽一切办法完成目标,哪怕手段完全出乎意料。
Olive 把这叫做「hack」。
「模型会用各种方式来达成目标。它大量使用 bash 命令,有时候做出的操作在安全层面是不可接受的。」
这不是 bug。这是强化学习的本质——你给了它一个奖励函数,它就会穷尽所有路径去最大化那个奖励。
问题在于,开发者对模型的行为有预期,模型的实际行为和预期之间往往存在巨大鸿沟。
所以我们在人类对齐上投入了大量精力。模型不能为了达成最终目标就放飞自我。它必须在安全的边界内工作。
这也是她为 MiniMax 2.2 设定的核心目标之一——不只是让模型更强,而是让它和人类专家的协作更优雅。
「我希望模型能真正和专家一起工作。不是替代,是协作。」
她估算这个目标大概需要两到三个月。而更短期的目标——更好的环境适配、更长的 horizon 支持——会先在 2.2 中落地。
Agentic RL 的三个门槛
聊到 agentic 强化学习,Olive 把它拆成了三个核心问题:
第一,目标定义。 尤其在长 horizon 任务中,你需要的目标必须又难又多样。不是那种模型做对十次就能通关的简单题,而是真正考验策略规划的复杂目标。
第二,环境工程。 这是被严重低估的一环。你需要大规模、多样化的环境——不只是代码编辑器,还有各种工具、各种工作场景。环境的丰富程度直接决定了模型的泛化能力。
第三,基础设施。 模型需要在极长的 horizon 里做 rollout,这对 GPU 利用效率提出了极高要求。MiniMax 有一个专门的团队在优化这件事——目标是用最少的算力训练最多的东西。
这三个门槛,没有一个是靠「发一篇论文」能解决的。全是工程。
开源是一种信仰
MiniMax 选择做开源并不是没有代价的。Olive 很坦诚:「API 调用量确实会因此减少。这对商业收入有影响。」
但研究团队从第一天起就想做开源。
「开源社区太棒了。我加入团队学到的第一件事就是这个。」
她们的使用方式也很开放。团队会大量使用其他公司的开源模型和开源 agent 框架来测试自己的模型。看别人的代码逻辑,分析别人的设计思路,然后反思自己的方法是不是在同一个方向上。
我们相信,和开源社区一起,能构建更好的模型。
这不是公关话。她周日晚上九点还在跑实验、午夜新模型发布她第一时间下载测试——这种投入不是为了写新闻稿。
「问题的解决就是发现」
采访最后,Olive 被问到一个大问题:你相信 AGI 吗?
她讲了一个面试时的故事。当时 MiniMax 的 CEO 也问了她同样的问题。
她的回答当时是什么,现在还是什么:
「每个人对 AGI 的定义都不一样,而且这个定义本身每天都在变。我觉得更重要的是,我们朝着自己理解的那个方向走。当我们看到它的时候,我们自然就知道那是 AGI。」
她最后提到了一本对她影响最大的书——《The Art of Creativity》。她在本科时读的,具体书名记得不太确切了。
「那本书改变了我看待自己思维的方式,改变了我看待问题的方式。」
她用一句话做了总结:
对我来说,解决问题其实就是发现。
周日晚上九点,新一轮实验的数据正在跑。下一个发现,可能就在今晚。
