降噪 - AI精选内容平台

去年还在用人类标注训练模型的团队，今年都在疯狂招熟悉Rubrics的工程师。

这个信号出现在一个不起眼的细节里：当Wolfram的团队连续几周追踪最新论文时，他们发现所有在RL环境公司工作的人都在论文发布当天就开始讨论。这些人清楚地知道，大模型训练的游戏规则正在改写。

人类偏好正在失效

RLHF（基于人类反馈的强化学习）曾经是行业标准。但现在它遇到了三个无法回避的问题。

第一个是成本。Scale AI的团队在一篇论文中直接承认：他们投入的人工标注成本，已经无法通过模型性能提升来证明合理性。你雇一百个标注员，标一百万条数据，模型提升可能只有2%。

第二个是主观性。同样一段代码，A标注员觉得是「清晰的实现」，B标注员觉得是「过度工程」。人类偏好数据的一致性，在真实场景中低得可怕。

第三个是长推理。当模型生成的回复从几百个token增长到几万个token时，人类已经无法有效评估质量。你让标注员看完一篇10页的深度研究报告，再判断它是否比另一篇好，这个任务本身就是不现实的。

但是。

一个反常识的现象出现了：当AI2的团队在训练Dr. Tulu模型时，他们用合成生成的Rubrics（评分标准）替代了人类标注。结果不仅训练速度提升了3倍，模型在长推理任务上的表现反而超过了用人类标注训练的版本。

这个结果让整个行业意识到：也许我们一开始就走错了方向。

Rubrics：把主观判断拆解成可测量的指标

什么是Rubrics？

传统思维是这样的：你给模型看两个回答，问人类「哪个更好」，然后用这个偏好信号训练模型。这是RLHF的核心逻辑。

Rubrics的思维完全不同：你不再问「哪个更好」，而是拆解成10个具体问题。比如评估一段代码回复，你可以设置这样的标准：

代码能否运行（Pass/Fail硬规则）
命名是否符合规范（0-10分）
边界条件是否处理（Yes/No）
时间复杂度是否最优（Pass/Fail）
代码结构是否可扩展（0-10分）

每个标准都是可量化的。不是「这段代码好」，而是「这段代码在命名规范上得8分，边界处理上得4分」。

Scale AI的团队在HealthBench项目中首次系统化应用这套方法。他们把医疗回复的质量拆解成Expert Grounding（专家依据）、Importance（重要性）、Subcontainment（子完整性）、Coverage（覆盖度）等类别。每个类别下又有3-5个细分指标。

结果是：即使换一批新的评估员，同一个回复的得分波动不超过5%。而传统偏好标注的一致性只有60%左右。

更关键的是，这些Rubrics可以由模型自己生成。

合成Rubrics：让模型自己定义评分标准

最激进的探索来自AI2的Dr. Tulu项目。

他们的做法是：模型在做深度研究时，每走一步，就生成一组新的Rubrics来评估这一步的质量。这些Rubrics不是预设的，而是根据当前任务动态生成的。

比如模型在写一篇关于气候变化的研究报告。它在第一段完成后，会生成一组Rubrics：

是否引用了IPCC最新报告（Pass/Fail）
数据来源是否在2020年之后（Pass/Fail）
是否提供了至少3个不同国家的案例（Yes/No）

然后用这组标准评估自己刚写的段落，决定是继续还是重写。

这听起来像「自我欺骗」。但论文中有个关键细节：他们用Discriminative Power（区分能力）来衡量每条Rubric的价值。如果一条标准对所有样本都给高分，那它就没有区分度，会被自动淘汰。

最终保留下来的Rubrics数量并不会爆炸性增长。论文中的曲线显示：从500条Rubrics增加到2000条，模型性能几乎不再提升。也就是说，存在一个「有效Rubrics」的边界。

更有意思的是，他们引入了Negative Rubrics（负向标准）。传统Rubrics都是「做到什么得分」，但Negative Rubrics是「出现什么就扣分」。比如「如果代码中出现硬编码的密码，直接判定为失败」。

这种机制直接遏制了Reward Hacking（奖励黑客）。模型没法通过钻空子来获得高分。

为什么OpenAI不公开谈Rubrics，但所有人都知道他们在用

在Wolfram和OpenAI产品负责人Jeff的对话中，有一段微妙的交锋。

Wolfram反复追问：「在非可验证领域，比如创意写作，你们怎么处理？」

Jeff的回答很谨慎：「我们有一些方法，让模型之间互相评估行为。」

他没有说具体怎么做。但所有在场的人都明白他在说什么。

因为OpenAI在Paperback项目中已经展示过思路：他们用Rubrics评估长推理的质量。虽然论文没有完全公开细节，但核心逻辑很清楚——把一个主观的「好坏」问题，拆解成100个客观的「是否做到」问题。

Scale AI的BBench Pro更直接：他们设计了Pass-to-Pass和Fail-to-Pass两种Rubrics类别。前者是「不能退步」的底线标准，后者是「必须改进」的增量标准。这种分类直接对应了产品迭代中的防御性测试和进攻性优化。

行业内的共识正在形成：RLHF不会消失，但它会被降级为「冷启动阶段的工具」。真正的长期训练，会转向Rubrics主导的系统。

Altman在一次采访中说过一句话：「我们发现，让人类标注员评估GPT-4的输出，已经越来越困难。因为很多时候，标注员自己也不知道什么是对的。」

这句话的潜台词是：人类已经不是AI能力的上限。

Rubrics的三个未解问题

第一个是非确定性。

你用同一组Rubrics评估同一个回复，跑三次可能得到三个不同的分数。因为大模型本身是概率性的。目前没有任何论文解决这个问题。行业内的临时方案是「跑三次取中位数」，但这显然不够优雅。

第二个是Rubric质量本身的评估。

谁来评估评估标准？现在的做法是用Discriminative Power（区分能力）、Advantage（优势）等指标来衡量。但这些指标本身又需要被定义。这是一个无限套娃的问题。

第三个是多模态。

现在的Rubrics主要针对文本。但当模型开始生成视频、音频、3D模型时，怎么设计Rubrics？视频的「流畅度」怎么量化？音乐的「情感表达」怎么打分？

这些问题还没有答案。但可以确定的是，谁先解决这些问题，谁就掌握了下一代模型训练的钥匙。

一个值得注意的细节

在所有关于Rubrics的论文中，有一个数据几乎没人提：训练成本。

Cameron Wolf在他的综述博客中提到，OpenRubric项目提供了数据分布的详细可视化图表。但只有他们做了。其他团队都回避了这个问题。

为什么？

因为合成Rubrics的计算成本比人工标注高得多。你需要一个3B参数的模型，在1B个激活态上训练5.5天，才能得到一个可用的Rubric生成器。这还只是1B规模的Llama模型。

如果要支撑GPT-4级别的模型，这个成本会是多少？

没人公开说。但可以推测：这是一场只有大厂玩得起的游戏。

OpenAI、Anthropic、DeepMind有足够的计算资源来训练Rubric生成器。但对于创业公司来说，这可能是一道无法跨越的门槛。

这也解释了为什么OpenAI不公开谈Rubrics。因为一旦这个方法成为标准，计算资源的壁垒会进一步拉大头部公司和其他玩家的差距。

行业的分水岭，不在于谁能想出好的训练方法，而在于谁能支付得起实施这个方法的成本。

结语

两年前，所有人都在讨论「人类反馈」。

现在，行业已经悄悄转向了「结构化评分」。

这个转变的本质，不是技术路线的迭代，而是训练哲学的转变：从「让模型模仿人类的主观偏好」，到「让模型在客观标准下自我进化」。

Rubrics只是这场变革的第一步。

下一个问题是：当模型可以自己定义标准、自己评估结果、自己决定训练方向时，人类在这个循环中还扮演什么角色？

也许我们最终会发现，人类的价值不是提供答案，而是提问正确的问题。