降噪 - AI精选内容平台

Andrej Karpathy在斯坦福的一间教室里，用粉笔在黑板上写下一个数字：44TB。

「这就是整个互联网的文本量，」他转身对台下说，「你可以用一个1TB的硬盘装下它。」

这是2024年。Karpathy已经离开特斯拉和OpenAI，但他依然是全球最懂大语言模型的人之一。这一次，他决定用最简单的方式，把ChatGPT背后的训练逻辑讲给所有人听。

如果你还在用「逐行敲代码」的方式工作，你可能正在用打字机时代的方式生产内容。

主角：特斯拉前AI总监的第二次科普

Andrej Karpathy，40岁出头，OpenAI创始成员，特斯拉自动驾驶团队前负责人。他有个习惯：每次讲技术，都会带一杯咖啡，然后用「你和我」这样的第二人称拉近距离。

「我不想让你们觉得AI是魔法，」他在视频开头这样说，「我想让你们看到，训练一个AI模型，和你小时候读教科书的过程，几乎是一样的。」

这句话，是他整个演讲的核心。

困境：为什么ChatGPT能答对奥数题，却数不清「strawberry」里有几个R？

问题出现在2023年夏天。

当时，一个关于「strawberry里有几个R」的问题在推特上疯传。GPT-4坚持说只有两个R，无论你怎么问，它都不改口。直到几个月后，OpenAI才悄悄修复了这个bug。

与此同时，同一个模型，能解出国际数学奥林匹克竞赛的题目，准确率超过90%。

这种矛盾，暴露了大语言模型的一个核心缺陷：它们不是真的在「理解」，而是在「模仿」。

转折：用教科书类比，拆解三阶段训练法

Karpathy给出的答案是：把AI训练拆成三个阶段，每个阶段对应你读教科书时做的三件事。

第一阶段：预训练（Pre-training）——读完所有说明文字

你打开一本化学教科书。前面几十页都是理论、定义、背景知识。你不需要做题，只需要读，把知识塞进脑子里。

AI的预训练就是这个过程。它下载44TB的互联网文本，从维基百科到Reddit，从新闻网站到技术论坛，全部读一遍。这个阶段耗时3个月,需要数千台GPU，花费几百万美元。

结果是：你得到一个「基础模型」，它知道很多事实，但它不会回答你的问题。你问它「2+2等于多少」，它可能会接着说「等于4，这是算术的基础……」然后开始背诵维基百科。

第二阶段：监督微调（SFT）——模仿专家的解题过程

现在你翻到教科书里的例题部分。作者不仅给出了问题，还写出了详细的解题步骤。你看着这些步骤，学习「专家是怎么解题的」。

AI的SFT阶段也是这样。OpenAI会雇佣人类标注员，给他们一堆问题，让他们写出「理想的回答」。比如：

问题：「推荐巴黎的五个地标」
理想回答：「1. 埃菲尔铁塔……2. 卢浮宫……」

然后，AI模型在这些「专家答案」上继续训练3小时。它学会了「当人类问问题时，我应该这样回答」。

这就是为什么ChatGPT会用礼貌的语气、分点列举、甚至加上表情符号——因为标注员就是这样写的。

但这个阶段有个致命问题：AI只是在「模仿」，它不知道为什么这样回答是对的。

如果故事到这里结束，就只是一篇工具教程。真正有意思的是接下来发生的事。

第三阶段：强化学习（RL）——自己做练习题，摸索出解题策略

教科书的最后一部分，是练习题。这些题目只给出问题和答案，不给解题步骤。你需要自己尝试、犯错、调整，最终找到一条可行的路径。

AI的RL阶段，本质就是「做练习题」。

举个例子。给AI一道数学题：「艾米丽买了3个苹果和2个橙子。每个橙子2美元，总价13美元。每个苹果多少钱？」

在SFT阶段，AI会直接说「答案是3美元」，因为人类标注员就是这样写的。

但在RL阶段，AI被要求：「自己想办法，得出正确答案。」它会生成1000种不同的解题路径，有的对，有的错。系统会自动筛选出「得到正确答案」的那些路径，然后告诉AI：「多用这些方法。」

神奇的事情发生了。

在中国公司DeepSeek发布的R1模型中，AI学会了在解题过程中「自言自语」：

「等等，让我重新检查一下我的计算……」「如果从另一个角度看这个问题……」「我可能在这里搞错了，让我追溯一下……」

这不是人类教它的。这是AI在数千次试错中，自己发现的「提高准确率的策略」。

方法论：三个阶段，对应三种知识形态

重场景：第三阶段为什么是AI的「觉醒时刻」？

2016年，AlphaGo在围棋比赛中走出「第37手」。这一步的概率只有万分之一，没有任何人类棋手会这样下，但事后证明，这是神之一手。

为什么？因为AlphaGo用的就是强化学习。它不是在模仿人类棋谱，而是在自己对弈中，发现了「人类从未想过的策略」。

现在，同样的事情正在大语言模型上发生。

DeepSeek的R1模型在解数学题时,平均推理长度是GPT-4的3倍。它会「多想几步」「从不同角度验证」「主动回溯错误」——这些都是它在强化学习中自己摸索出来的。

人类标注员永远不会写出这么啰嗦的答案。但对AI来说，这些「啰嗦」是提高准确率的唯一路径。

轻步骤：为什么你用ChatGPT时,有时要写「请用代码」？

因为AI的「心算」很差。

它每次只能处理一小段计算,如果你让它在一个token(一个文本片段)里完成「23 × 177」，它会直接胡乱猜一个数字。

但如果你说「请用Python写代码计算」，它会写出：

result = 23 * 177
print(result)

然后调用真正的Python解释器，得到准确答案。

这就是为什么，当你问ChatGPT复杂问题时，它会「思考」30秒——它在把计算分散到多个步骤里，避免在单个token上「跳跃过大」。

微冲突：为什么OpenAI不公开O1的「思考过程」？

你可能注意到，当你用ChatGPT的O1模型时，它会显示「推理中……」，但不会展示具体的推理链条。

DeepSeek的R1模型则完全透明，你能看到它每一步在想什么。

原因是：OpenAI担心「蒸馏风险」——如果竞争对手看到完整的推理链,可能会用这些数据训练出类似的模型。

这也是为什么，O1模型每月收费200美元，而DeepSeek R1完全开源。

理论升华：用「教科书三件事」理解AI训练

想想你最后一次在超市买电钻——你不是在买电钻，你是在买墙上的那个洞。

AI训练也是如此。预训练、SFT、RL，不是三种「技术」，而是三种「学习方式」：

预训练=读说明文字：建立知识库
SFT=模仿专家解题：学会「什么叫好答案」
RL=做练习题：摸索出「适合自己的解题策略」

这三个阶段,对应你从「背书」「模仿」到「自主思考」的完整认知路径。

区别在于：人类读一本教科书需要一个学期，AI读完整个互联网只需要3个月。

局限性：这套方法在哪些地方会失效？

1. 创意写作领域,RL很难评分

你让AI写一个关于鹈鹕的笑话。它生成了5个版本。哪个最好笑？

这没有标准答案。你只能让人类来评判，但如果每次训练都需要人类评判数百万个笑话，成本太高。

目前的解决方案是：训练一个「奖励模型」，让这个模型模拟人类的评分。但这个模型本身也会出错，导致AI最终学会的是「讨好奖励模型」，而不是「真正变好笑」。

2. 标记化问题导致拼写任务很差

AI看到的不是字母,而是「token」——一小块文本。比如「strawberry」在AI眼里是3个token，而不是10个字母。

所以当你问「strawberry里有几个R」，AI需要先「回忆」每个token里有哪些字母，再去数。这个过程很容易出错。

解决方案：让AI写代码来数。

余韵：2025年，AI正在学会「人类没想过的思考方式」

Karpathy在视频结尾说了一句话：

「也许有一天，AI会发现一种语言，这种语言不是英语，不是中文，而是它自己的语言——一种更适合思考的语言。」

这不是科幻。在AlphaGo的第37手之前，没有人相信AI能超越人类棋手。

现在，DeepSeek R1在解题时会「自言自语」，用一种我们不太理解的方式，把准确率从60%提升到95%。

如果这些「自言自语」继续进化，某一天，你可能会看到AI输出一段你完全看不懂的文本——但它能完美解决你的问题。

到那时，我们或许需要重新定义，什么叫「智能」。

Andrej Karpathy 硬核拆解：ChatGPT 与大语言模型背后的原理