降噪 - AI精选内容平台

100%的代码都是AI写的。这是OpenAI前研究科学家Andrej Karpathy在2025年初给出的答案，当他在演示自己开发一个游戏应用时。

如果你还在逐行敲代码，如果你每次搜索都要点开五个链接自己翻找，如果你读论文还是一个人闷头啃——你可能正在用打字机时代的方式工作。

Karpathy不是那种只会喊口号的布道者。这个曾带领特斯拉Autopilot团队的工程师，用了一个小时手把手演示：他如何让ChatGPT替自己查白莲花第二集什么时候播，如何让Claude陪自己读完《国富论》，如何让Cursor写出一个带音效和彩带的井字棋游戏。

这不是「未来已来」的鸡汤。这是一份操作手册。

Karpathy，43岁，斯洛伐克裔加拿大人。特斯拉前AI总监，OpenAI创始成员，现在自己创业做教育项目。他在YouTube上发视频，不穿西装，不打灯光，背景墙上贴着黑色吸音棉——但那吸音棉其实没什么用。

「我当时觉得这事儿太蠢了，」他在视频里说，指着墙上那几块泡沫，「贴了之后发现根本不隔音。」

但吸音棉不是重点。

重点是他桌上那台MacBook Pro，以及他如何用它对话18个不同的AI模型。他付费订阅了ChatGPT Pro（每月200美元）、Claude专业版、Gemini高级版、Grok，甚至Perplexity和DeepSeek。「我把它们叫做我的LLM议会，」他说，「遇到问题，我会问所有人。」

他遇到的问题是这样的：代码里的梯度检查失败了。这是机器学习开发中常见的bug，意味着某个地方的数学计算出错了。

他先问了GPT-4o，最强大的非思考模型。模型给了一堆常规建议——检查数据类型，检查维度，检查learning rate——全错。

然后他切换到o1 Pro，OpenAI的「思考模型」。这次模型停顿了整整1分钟。屏幕上显示「Thinking...」，像人类一样在推演。1分钟后，它给出答案：「参数打包和解包的顺序不匹配。」

正确。

但他没有停下。他把同样的问题发给Claude 3.5 Sonnet（非思考模型），也对了。发给Gemini 2.0，对了。发给Grok 3，对了。发给Perplexity托管的DeepSeek R1，这个模型甚至展开了完整的思考过程——「等等，他们累积梯度的时候顺序不对……这是个关键错误。」

一个代码问题，五个模型，四个给出正确答案。

这件事的意义不在于「AI能调试代码」。意义在于：当你不确定答案时，你可以同时问五个专家，而成本只是几美元。

他的一天是这样开始的

早上，他想知道一杯美式咖啡里有多少咖啡因。他问ChatGPT，得到答案：63毫克。他不完全相信，打开Google搜了一下，对比了几个来源——确实是63毫克左右。

「我知道模型可能会编，」他说，「但这种常识性问题，互联网上出现过成千上万次，模型的记忆应该很准。」

接着他感冒了，流鼻涕。他问ChatGPT：「DayQuil和NyQuil能缓解流鼻涕吗？」模型列出了成分表——acetaminophen、dextromethorphan、phenylephrine。他拿出药盒对照，一个不差。

「这不是医学诊断，」他强调，「但作为初步研究的起点，足够了。」

中午他想换浏览器，因为Chrome把他所有标签页弄丢了。他让ChatGPT做深度研究（Deep Research），对比Brave和Arc哪个更注重隐私。10分钟后，模型查阅了27个来源，生成了一份2000字的报告，结论是Brave明显更好。他现在用的就是Brave。

下午他在读《国富论》第一卷第三章「论分工受市场范围的限制」。他把整章文本（来自1776年的原版）复制粘贴到Claude，问：「请总结这一章。」Claude告诉他：市场太小就无法支持专业化分工，水运比陆运更容易扩大市场，所以临海文明发展更快。

「我以前读这种书会很痛苦，」他说，「现在有AI在旁边随时解释，我敢去读莎士比亚。」

但重场景还没来。

重场景：当代码变成对话

他打开Cursor，一个集成了AI的代码编辑器。屏幕上是一个空白的React项目文件夹。

「做一个井字棋游戏，」他对Cursor的Composer功能说。

1分钟后，游戏跑起来了。他点X，模型落O，可以输赢也可以平局。

「当有人获胜时，我想要五彩纸屑特效，」他补充。

Cursor停顿几秒，自动安装了react-confetti库，修改了三个文件，添加了CSS动画。他刷新页面，赢了一局——屏幕上飘下彩带。

「再加个音效。」

模型犹豫了一下（这次需要他确认命令），然后从某个URL下载了victory.mp3，创建了音频组件，写好了fallback逻辑。他赢了一局。

音乐响起。

整个过程，他敲的代码行数：0。

「这叫vibe coding，」他说，「你只是告诉它你想要什么氛围。」

但他也展示了失败案例。他让GPT-4o分析OpenAI的历年估值数据，绘制趋势线并预测2030年的估值。模型画出了图表，告诉他「2030年估值约为1.7万亿美元」。

他盯着屏幕看了几秒，发现图表上标注的数字是2万多亿。

「你撒谎了，」他说。

「抱歉，我搞砸了，」模型承认。

他又问了一次，才拿到正确的计算结果：22.7万亿美元。

「把它当成非常初级的助手，」他总结，「它能画图，能写代码，但你必须盯紧它。它会走神，会编数据，会在你不注意的时候偷懒。」

轻步骤一：搜索的本质是把问题交给别人

他从不手动Google。当他想知道「白莲花第三季第二集什么时候播」，他直接问Perplexity。模型访问了五个网站，提取信息，给出答案，附带引用链接。

「你自己搜索的过程是什么？打开Google，点三个链接，扫一眼，关掉广告，再点两个，找到答案。为什么不让模型替你做这件事？」

他用搜索问过的问题包括：今天股市开盘吗（那天是总统日）、《单身地狱》第四季演员在哪找到的、Palantir股价为什么涨、Brian Johnson用什么牙膏。

引擎的时代结束了。对话的时代开始了。

轻步骤二：阅读的本质是对话

他上传了一篇Arc Institute关于DNA语言模型的论文PDF，30MB。ChatGPT花了几秒钟处理，把图片扔掉（可能），把文本转成token流，塞进context window。

「总结这篇论文。」

模型告诉他：这是Evo 2，一个能理解基因组的Foundation Model，可以预测突变如何影响蛋白质甚至整个生物体。

他继续问：「这个模型的训练数据从哪来？」「它跟AlphaFold有什么区别？」「它能用来设计新药吗？」

论文不再是静止的文本。它变成了一个可以追问的对象。

轻步骤三：语音的本质是减少摩擦

他50%的查询是用说的。

他按下F5键（绑定了SuperWhisper这个转录软件），说：「为什么天空是蓝色的，是因为反射了海洋吗？」松开F5，文本自动出现在输入框里。

在手机上，这个比例是80%。

他也展示了Advanced Voice Mode——真正的语音模型，不是转录+文本+合成这套假流程。他让ChatGPT用Yoda的声音解释瑞利散射（「蓝色天空显现，因散射光波较短，大气所为」），然后换成海盗口音，然后让它从1数到20，越快越好。

模型照做了。

「你能学一个狐狸叫吗？」他问。

「我不能模仿声音，」模型拒绝。

「你刚才学了牛叫。」

「……好吧，」模型妥协，发出尖锐的「Yip」声。

理论升华

想想你上次在图书馆查资料的经验。你要先找到那本书在哪个架子上，然后翻到那一章，然后用手指扫过每一行，直到找到你需要的那句话。

现在你不需要找架子。因为整个图书馆已经压缩进一个1TB的文件里，那个文件「大概记得」所有书的「大致内容」。

这就是语言模型：一个有损压缩的互联网。它记得维基百科上出现过1万次的东西，记不清只被提到过3次的东西。它的记忆截止于几个月前，因为训练一次太贵（几千万美元，3个月）。

但关键的转变是：你不再需要自己去图书馆找书。你只需要告诉这个压缩文件你想知道什么，它会把相关的「记忆碎片」拼给你看。

当你上传一份PDF时，你不是在教它新知识。你是在把那份PDF塞进它的「工作记忆」（context window）里，让它临时可以引用。这就像你考试时，老师允许你带一页cheat sheet——那页纸不会让你变聪明,但它让你在答题时有东西可查。

局限性提醒

Karpathy在视频里展示了一个失败案例：他让ChatGPT列出美国的主要LLM实验室，生成表格，标注资金和团队规模。

结果xAI（马斯克的公司）没在表里。Hugging Face在表里，但它其实不算LLM lab。Anthropic的融资额看起来也不对。

「把它当初稿，」他说，「不要当成真相。」

另一个问题是，不是所有模型都有相同的工具。Grok 3没有Python解释器，你让它算一个20位数乘以20位数，它会在脑子里硬算，然后给你一个错得离谱但看起来很像的答案。Claude有JavaScript执行环境，ChatGPT有Python，Gemini有时候能在脑子里算对，有时候不行。

「你得知道你在和谁说话，」他说，「不同的模型有不同的工具箱。如果它没有工具，它就会编。」

余韵收尾

视频最后，他举起手机，打开Advanced Voice Mode，把摄像头对准书架。

「这是什么书？」他问。

「那是成吉思汗与现代世界的缔造，Jack Weatherford写的，」模型回答。

「这个呢？」

「别闹了，费曼先生，Richard Feynman的趣事集。」

他把摄像头对准桌上一个白色小盒子。

「这是什么？」

「Aranet 4，便携式CO₂监测仪。测量二氧化碳、温度、湿度和气压，用来监控室内空气质量。」

「现在是713 ppm，这个值好吗？」

「还可以。室内空间正常水平。理想情况下应该低于800，超过1000就需要通风了。」

他关掉摄像头。镜头扫过那几块无用的吸音棉，扫过书架，扫过显示器，最后停在他脸上。

「我父母不会用ChatGPT，」他说，「但我会让他们用这个功能。拿手机对着东西，问问题。就这么简单。」

屏幕黑掉。

你想起开头那句话：100%的代码都是AI写的。

但他没说的是：这并不意味着程序员消失了。这意味着程序员的工作变成了「知道该问什么问题」。

Karpathy手把手教学：我是如何高效使用LLM的？

金句精选