AI训练新范式:为什么OpenAI押注Rubrics而非人工标注
AI Principles

AI训练新范式:为什么OpenAI押注Rubrics而非人工标注

W
Wolfram、Ted、Vipul、Cameron Wolf、Alec Radford(讨论对象)
2026年3月18日YouTube
返回首页

去年还在用人类标注训练模型的团队,今年都在疯狂招熟悉Rubrics的工程师。

这个信号出现在一个不起眼的细节里:当Wolfram的团队连续几周追踪最新论文时,他们发现所有在RL环境公司工作的人都在论文发布当天就开始讨论。这些人清楚地知道,大模型训练的游戏规则正在改写。

人类偏好正在失效

RLHF(基于人类反馈的强化学习)曾经是行业标准。但现在它遇到了三个无法回避的问题。

第一个是成本。Scale AI的团队在一篇论文中直接承认:他们投入的人工标注成本,已经无法通过模型性能提升来证明合理性。你雇一百个标注员,标一百万条数据,模型提升可能只有2%。

第二个是主观性。同样一段代码,A标注员觉得是「清晰的实现」,B标注员觉得是「过度工程」。人类偏好数据的一致性,在真实场景中低得可怕。

第三个是长推理。当模型生成的回复从几百个token增长到几万个token时,人类已经无法有效评估质量。你让标注员看完一篇10页的深度研究报告,再判断它是否比另一篇好,这个任务本身就是不现实的。

但是。

一个反常识的现象出现了:当AI2的团队在训练Dr. Tulu模型时,他们用合成生成的Rubrics(评分标准)替代了人类标注。结果不仅训练速度提升了3倍,模型在长推理任务上的表现反而超过了用人类标注训练的版本。

这个结果让整个行业意识到:也许我们一开始就走错了方向。

Rubrics:把主观判断拆解成可测量的指标

什么是Rubrics?

传统思维是这样的:你给模型看两个回答,问人类「哪个更好」,然后用这个偏好信号训练模型。这是RLHF的核心逻辑。

Rubrics的思维完全不同:你不再问「哪个更好」,而是拆解成10个具体问题。比如评估一段代码回复,你可以设置这样的标准:

  • 代码能否运行(Pass/Fail硬规则)
  • 命名是否符合规范(0-10分)
  • 边界条件是否处理(Yes/No)
  • 时间复杂度是否最优(Pass/Fail)
  • 代码结构是否可扩展(0-10分)

每个标准都是可量化的。不是「这段代码好」,而是「这段代码在命名规范上得8分,边界处理上得4分」。

Scale AI的团队在HealthBench项目中首次系统化应用这套方法。他们把医疗回复的质量拆解成Expert Grounding(专家依据)、Importance(重要性)、Subcontainment(子完整性)、Coverage(覆盖度)等类别。每个类别下又有3-5个细分指标。

结果是:即使换一批新的评估员,同一个回复的得分波动不超过5%。而传统偏好标注的一致性只有60%左右。

更关键的是,这些Rubrics可以由模型自己生成。

合成Rubrics:让模型自己定义评分标准

最激进的探索来自AI2的Dr. Tulu项目。

他们的做法是:模型在做深度研究时,每走一步,就生成一组新的Rubrics来评估这一步的质量。这些Rubrics不是预设的,而是根据当前任务动态生成的。

比如模型在写一篇关于气候变化的研究报告。它在第一段完成后,会生成一组Rubrics:

  • 是否引用了IPCC最新报告(Pass/Fail)
  • 数据来源是否在2020年之后(Pass/Fail)
  • 是否提供了至少3个不同国家的案例(Yes/No)

然后用这组标准评估自己刚写的段落,决定是继续还是重写。

这听起来像「自我欺骗」。但论文中有个关键细节:他们用Discriminative Power(区分能力)来衡量每条Rubric的价值。如果一条标准对所有样本都给高分,那它就没有区分度,会被自动淘汰。

最终保留下来的Rubrics数量并不会爆炸性增长。论文中的曲线显示:从500条Rubrics增加到2000条,模型性能几乎不再提升。也就是说,存在一个「有效Rubrics」的边界。

更有意思的是,他们引入了Negative Rubrics(负向标准)。传统Rubrics都是「做到什么得分」,但Negative Rubrics是「出现什么就扣分」。比如「如果代码中出现硬编码的密码,直接判定为失败」。

这种机制直接遏制了Reward Hacking(奖励黑客)。模型没法通过钻空子来获得高分。

为什么OpenAI不公开谈Rubrics,但所有人都知道他们在用

在Wolfram和OpenAI产品负责人Jeff的对话中,有一段微妙的交锋。

Wolfram反复追问:「在非可验证领域,比如创意写作,你们怎么处理?」

Jeff的回答很谨慎:「我们有一些方法,让模型之间互相评估行为。」

他没有说具体怎么做。但所有在场的人都明白他在说什么。

因为OpenAI在Paperback项目中已经展示过思路:他们用Rubrics评估长推理的质量。虽然论文没有完全公开细节,但核心逻辑很清楚——把一个主观的「好坏」问题,拆解成100个客观的「是否做到」问题。

Scale AI的BBench Pro更直接:他们设计了Pass-to-Pass和Fail-to-Pass两种Rubrics类别。前者是「不能退步」的底线标准,后者是「必须改进」的增量标准。这种分类直接对应了产品迭代中的防御性测试和进攻性优化。

行业内的共识正在形成:RLHF不会消失,但它会被降级为「冷启动阶段的工具」。真正的长期训练,会转向Rubrics主导的系统。

Altman在一次采访中说过一句话:「我们发现,让人类标注员评估GPT-4的输出,已经越来越困难。因为很多时候,标注员自己也不知道什么是对的。」

这句话的潜台词是:人类已经不是AI能力的上限。

Rubrics的三个未解问题

第一个是非确定性。

你用同一组Rubrics评估同一个回复,跑三次可能得到三个不同的分数。因为大模型本身是概率性的。目前没有任何论文解决这个问题。行业内的临时方案是「跑三次取中位数」,但这显然不够优雅。

第二个是Rubric质量本身的评估。

谁来评估评估标准?现在的做法是用Discriminative Power(区分能力)、Advantage(优势)等指标来衡量。但这些指标本身又需要被定义。这是一个无限套娃的问题。

第三个是多模态。

现在的Rubrics主要针对文本。但当模型开始生成视频、音频、3D模型时,怎么设计Rubrics?视频的「流畅度」怎么量化?音乐的「情感表达」怎么打分?

这些问题还没有答案。但可以确定的是,谁先解决这些问题,谁就掌握了下一代模型训练的钥匙。

一个值得注意的细节

在所有关于Rubrics的论文中,有一个数据几乎没人提:训练成本。

Cameron Wolf在他的综述博客中提到,OpenRubric项目提供了数据分布的详细可视化图表。但只有他们做了。其他团队都回避了这个问题。

为什么?

因为合成Rubrics的计算成本比人工标注高得多。你需要一个3B参数的模型,在1B个激活态上训练5.5天,才能得到一个可用的Rubric生成器。这还只是1B规模的Llama模型。

如果要支撑GPT-4级别的模型,这个成本会是多少?

没人公开说。但可以推测:这是一场只有大厂玩得起的游戏。

OpenAI、Anthropic、DeepMind有足够的计算资源来训练Rubric生成器。但对于创业公司来说,这可能是一道无法跨越的门槛。

这也解释了为什么OpenAI不公开谈Rubrics。因为一旦这个方法成为标准,计算资源的壁垒会进一步拉大头部公司和其他玩家的差距。

行业的分水岭,不在于谁能想出好的训练方法,而在于谁能支付得起实施这个方法的成本。

结语

两年前,所有人都在讨论「人类反馈」。

现在,行业已经悄悄转向了「结构化评分」。

这个转变的本质,不是技术路线的迭代,而是训练哲学的转变:从「让模型模仿人类的主观偏好」,到「让模型在客观标准下自我进化」。

Rubrics只是这场变革的第一步。

下一个问题是:当模型可以自己定义标准、自己评估结果、自己决定训练方向时,人类在这个循环中还扮演什么角色?

也许我们最终会发现,人类的价值不是提供答案,而是提问正确的问题。