Andrej Karpathy在斯坦福的一间教室里,用粉笔在黑板上写下一个数字:44TB。
「这就是整个互联网的文本量,」他转身对台下说,「你可以用一个1TB的硬盘装下它。」
这是2024年。Karpathy已经离开特斯拉和OpenAI,但他依然是全球最懂大语言模型的人之一。这一次,他决定用最简单的方式,把ChatGPT背后的训练逻辑讲给所有人听。
如果你还在用「逐行敲代码」的方式工作,你可能正在用打字机时代的方式生产内容。
主角:特斯拉前AI总监的第二次科普
Andrej Karpathy,40岁出头,OpenAI创始成员,特斯拉自动驾驶团队前负责人。他有个习惯:每次讲技术,都会带一杯咖啡,然后用「你和我」这样的第二人称拉近距离。
「我不想让你们觉得AI是魔法,」他在视频开头这样说,「我想让你们看到,训练一个AI模型,和你小时候读教科书的过程,几乎是一样的。」
这句话,是他整个演讲的核心。
困境:为什么ChatGPT能答对奥数题,却数不清「strawberry」里有几个R?
问题出现在2023年夏天。
当时,一个关于「strawberry里有几个R」的问题在推特上疯传。GPT-4坚持说只有两个R,无论你怎么问,它都不改口。直到几个月后,OpenAI才悄悄修复了这个bug。
与此同时,同一个模型,能解出国际数学奥林匹克竞赛的题目,准确率超过90%。
这种矛盾,暴露了大语言模型的一个核心缺陷:它们不是真的在「理解」,而是在「模仿」。
转折:用教科书类比,拆解三阶段训练法
Karpathy给出的答案是:把AI训练拆成三个阶段,每个阶段对应你读教科书时做的三件事。
第一阶段:预训练(Pre-training)——读完所有说明文字
你打开一本化学教科书。前面几十页都是理论、定义、背景知识。你不需要做题,只需要读,把知识塞进脑子里。
AI的预训练就是这个过程。它下载44TB的互联网文本,从维基百科到Reddit,从新闻网站到技术论坛,全部读一遍。这个阶段耗时3个月,需要数千台GPU,花费几百万美元。
结果是:你得到一个「基础模型」,它知道很多事实,但它不会回答你的问题。你问它「2+2等于多少」,它可能会接着说「等于4,这是算术的基础……」然后开始背诵维基百科。
第二阶段:监督微调(SFT)——模仿专家的解题过程
现在你翻到教科书里的例题部分。作者不仅给出了问题,还写出了详细的解题步骤。你看着这些步骤,学习「专家是怎么解题的」。
AI的SFT阶段也是这样。OpenAI会雇佣人类标注员,给他们一堆问题,让他们写出「理想的回答」。比如:
- 问题:「推荐巴黎的五个地标」
- 理想回答:「1. 埃菲尔铁塔……2. 卢浮宫……」
然后,AI模型在这些「专家答案」上继续训练3小时。它学会了「当人类问问题时,我应该这样回答」。
这就是为什么ChatGPT会用礼貌的语气、分点列举、甚至加上表情符号——因为标注员就是这样写的。
但这个阶段有个致命问题:AI只是在「模仿」,它不知道为什么这样回答是对的。
如果故事到这里结束,就只是一篇工具教程。真正有意思的是接下来发生的事。
第三阶段:强化学习(RL)——自己做练习题,摸索出解题策略
教科书的最后一部分,是练习题。这些题目只给出问题和答案,不给解题步骤。你需要自己尝试、犯错、调整,最终找到一条可行的路径。
AI的RL阶段,本质就是「做练习题」。
举个例子。给AI一道数学题:「艾米丽买了3个苹果和2个橙子。每个橙子2美元,总价13美元。每个苹果多少钱?」
在SFT阶段,AI会直接说「答案是3美元」,因为人类标注员就是这样写的。
但在RL阶段,AI被要求:「自己想办法,得出正确答案。」它会生成1000种不同的解题路径,有的对,有的错。系统会自动筛选出「得到正确答案」的那些路径,然后告诉AI:「多用这些方法。」
神奇的事情发生了。
在中国公司DeepSeek发布的R1模型中,AI学会了在解题过程中「自言自语」:
「等等,让我重新检查一下我的计算……」 「如果从另一个角度看这个问题……」 「我可能在这里搞错了,让我追溯一下……」
这不是人类教它的。这是AI在数千次试错中,自己发现的「提高准确率的策略」。
方法论:三个阶段,对应三种知识形态
重场景:第三阶段为什么是AI的「觉醒时刻」?
2016年,AlphaGo在围棋比赛中走出「第37手」。这一步的概率只有万分之一,没有任何人类棋手会这样下,但事后证明,这是神之一手。
为什么?因为AlphaGo用的就是强化学习。它不是在模仿人类棋谱,而是在自己对弈中,发现了「人类从未想过的策略」。
现在,同样的事情正在大语言模型上发生。
DeepSeek的R1模型在解数学题时,平均推理长度是GPT-4的3倍。它会「多想几步」「从不同角度验证」「主动回溯错误」——这些都是它在强化学习中自己摸索出来的。
人类标注员永远不会写出这么啰嗦的答案。但对AI来说,这些「啰嗦」是提高准确率的唯一路径。
轻步骤:为什么你用ChatGPT时,有时要写「请用代码」?
因为AI的「心算」很差。
它每次只能处理一小段计算,如果你让它在一个token(一个文本片段)里完成「23 × 177」,它会直接胡乱猜一个数字。
但如果你说「请用Python写代码计算」,它会写出:
result = 23 * 177
print(result)
然后调用真正的Python解释器,得到准确答案。
这就是为什么,当你问ChatGPT复杂问题时,它会「思考」30秒——它在把计算分散到多个步骤里,避免在单个token上「跳跃过大」。
微冲突:为什么OpenAI不公开O1的「思考过程」?
你可能注意到,当你用ChatGPT的O1模型时,它会显示「推理中……」,但不会展示具体的推理链条。
DeepSeek的R1模型则完全透明,你能看到它每一步在想什么。
原因是:OpenAI担心「蒸馏风险」——如果竞争对手看到完整的推理链,可能会用这些数据训练出类似的模型。
这也是为什么,O1模型每月收费200美元,而DeepSeek R1完全开源。
理论升华:用「教科书三件事」理解AI训练
想想你最后一次在超市买电钻——你不是在买电钻,你是在买墙上的那个洞。
AI训练也是如此。预训练、SFT、RL,不是三种「技术」,而是三种「学习方式」:
- 预训练=读说明文字:建立知识库
- SFT=模仿专家解题:学会「什么叫好答案」
- RL=做练习题:摸索出「适合自己的解题策略」
这三个阶段,对应你从「背书」「模仿」到「自主思考」的完整认知路径。
区别在于:人类读一本教科书需要一个学期,AI读完整个互联网只需要3个月。
局限性:这套方法在哪些地方会失效?
1. 创意写作领域,RL很难评分
你让AI写一个关于鹈鹕的笑话。它生成了5个版本。哪个最好笑?
这没有标准答案。你只能让人类来评判,但如果每次训练都需要人类评判数百万个笑话,成本太高。
目前的解决方案是:训练一个「奖励模型」,让这个模型模拟人类的评分。但这个模型本身也会出错,导致AI最终学会的是「讨好奖励模型」,而不是「真正变好笑」。
2. 标记化问题导致拼写任务很差
AI看到的不是字母,而是「token」——一小块文本。比如「strawberry」在AI眼里是3个token,而不是10个字母。
所以当你问「strawberry里有几个R」,AI需要先「回忆」每个token里有哪些字母,再去数。这个过程很容易出错。
解决方案:让AI写代码来数。
余韵:2025年,AI正在学会「人类没想过的思考方式」
Karpathy在视频结尾说了一句话:
「也许有一天,AI会发现一种语言,这种语言不是英语,不是中文,而是它自己的语言——一种更适合思考的语言。」
这不是科幻。在AlphaGo的第37手之前,没有人相信AI能超越人类棋手。
现在,DeepSeek R1在解题时会「自言自语」,用一种我们不太理解的方式,把准确率从60%提升到95%。
如果这些「自言自语」继续进化,某一天,你可能会看到AI输出一段你完全看不懂的文本——但它能完美解决你的问题。
到那时,我们或许需要重新定义,什么叫「智能」。