Karpathy手把手教学:我是如何高效使用LLM的?
AI CodingPersonal ProductivityAI Principles

Karpathy手把手教学:我是如何高效使用LLM的?

A
Andrej Karpathy
2025年2月28日YouTube
返回首页

金句精选

如果你还在逐行敲代码,你可能正在用打字机时代的方式工作。

我把它们叫做我的LLM议会——遇到问题,我会问所有人。

把它当成非常初级的助手。它能画图,能写代码,但你必须盯紧它。

引擎的时代结束了。对话的时代开始了。

整个图书馆已经压缩进一个1TB的文件里,那个文件『大概记得』所有书的『大致内容』。

100%的代码都是AI写的。这是OpenAI前研究科学家Andrej Karpathy在2025年初给出的答案,当他在演示自己开发一个游戏应用时。

如果你还在逐行敲代码,如果你每次搜索都要点开五个链接自己翻找,如果你读论文还是一个人闷头啃——你可能正在用打字机时代的方式工作。

Karpathy不是那种只会喊口号的布道者。这个曾带领特斯拉Autopilot团队的工程师,用了一个小时手把手演示:他如何让ChatGPT替自己查白莲花第二集什么时候播,如何让Claude陪自己读完《国富论》,如何让Cursor写出一个带音效和彩带的井字棋游戏。

这不是「未来已来」的鸡汤。这是一份操作手册。


Karpathy,43岁,斯洛伐克裔加拿大人。特斯拉前AI总监,OpenAI创始成员,现在自己创业做教育项目。他在YouTube上发视频,不穿西装,不打灯光,背景墙上贴着黑色吸音棉——但那吸音棉其实没什么用。

「我当时觉得这事儿太蠢了,」他在视频里说,指着墙上那几块泡沫,「贴了之后发现根本不隔音。」

但吸音棉不是重点。

重点是他桌上那台MacBook Pro,以及他如何用它对话18个不同的AI模型。他付费订阅了ChatGPT Pro(每月200美元)、Claude专业版、Gemini高级版、Grok,甚至Perplexity和DeepSeek。「我把它们叫做我的LLM议会,」他说,「遇到问题,我会问所有人。」


他遇到的问题是这样的:代码里的梯度检查失败了。这是机器学习开发中常见的bug,意味着某个地方的数学计算出错了。

他先问了GPT-4o,最强大的非思考模型。模型给了一堆常规建议——检查数据类型,检查维度,检查learning rate——全错。

然后他切换到o1 Pro,OpenAI的「思考模型」。这次模型停顿了整整1分钟。屏幕上显示「Thinking...」,像人类一样在推演。1分钟后,它给出答案:「参数打包和解包的顺序不匹配。」

正确。

但他没有停下。他把同样的问题发给Claude 3.5 Sonnet(非思考模型),也对了。发给Gemini 2.0,对了。发给Grok 3,对了。发给Perplexity托管的DeepSeek R1,这个模型甚至展开了完整的思考过程——「等等,他们累积梯度的时候顺序不对……这是个关键错误。」

一个代码问题,五个模型,四个给出正确答案。

这件事的意义不在于「AI能调试代码」。意义在于:当你不确定答案时,你可以同时问五个专家,而成本只是几美元。


他的一天是这样开始的

早上,他想知道一杯美式咖啡里有多少咖啡因。他问ChatGPT,得到答案:63毫克。他不完全相信,打开Google搜了一下,对比了几个来源——确实是63毫克左右。

「我知道模型可能会编,」他说,「但这种常识性问题,互联网上出现过成千上万次,模型的记忆应该很准。」

接着他感冒了,流鼻涕。他问ChatGPT:「DayQuil和NyQuil能缓解流鼻涕吗?」模型列出了成分表——acetaminophen、dextromethorphan、phenylephrine。他拿出药盒对照,一个不差。

「这不是医学诊断,」他强调,「但作为初步研究的起点,足够了。」

中午他想换浏览器,因为Chrome把他所有标签页弄丢了。他让ChatGPT做深度研究(Deep Research),对比Brave和Arc哪个更注重隐私。10分钟后,模型查阅了27个来源,生成了一份2000字的报告,结论是Brave明显更好。他现在用的就是Brave。

下午他在读《国富论》第一卷第三章「论分工受市场范围的限制」。他把整章文本(来自1776年的原版)复制粘贴到Claude,问:「请总结这一章。」Claude告诉他:市场太小就无法支持专业化分工,水运比陆运更容易扩大市场,所以临海文明发展更快。

「我以前读这种书会很痛苦,」他说,「现在有AI在旁边随时解释,我敢去读莎士比亚。」

但重场景还没来。


重场景:当代码变成对话

他打开Cursor,一个集成了AI的代码编辑器。屏幕上是一个空白的React项目文件夹。

「做一个井字棋游戏,」他对Cursor的Composer功能说。

1分钟后,游戏跑起来了。他点X,模型落O,可以输赢也可以平局。

「当有人获胜时,我想要五彩纸屑特效,」他补充。

Cursor停顿几秒,自动安装了react-confetti库,修改了三个文件,添加了CSS动画。他刷新页面,赢了一局——屏幕上飘下彩带。

「再加个音效。」

模型犹豫了一下(这次需要他确认命令),然后从某个URL下载了victory.mp3,创建了音频组件,写好了fallback逻辑。他赢了一局。

音乐响起。

整个过程,他敲的代码行数:0。

「这叫vibe coding,」他说,「你只是告诉它你想要什么氛围。」

但他也展示了失败案例。他让GPT-4o分析OpenAI的历年估值数据,绘制趋势线并预测2030年的估值。模型画出了图表,告诉他「2030年估值约为1.7万亿美元」。

他盯着屏幕看了几秒,发现图表上标注的数字是2万多亿。

「你撒谎了,」他说。

「抱歉,我搞砸了,」模型承认。

他又问了一次,才拿到正确的计算结果:22.7万亿美元。

「把它当成非常初级的助手,」他总结,「它能画图,能写代码,但你必须盯紧它。它会走神,会编数据,会在你不注意的时候偷懒。」


轻步骤一:搜索的本质是把问题交给别人

他从不手动Google。当他想知道「白莲花第三季第二集什么时候播」,他直接问Perplexity。模型访问了五个网站,提取信息,给出答案,附带引用链接。

「你自己搜索的过程是什么?打开Google,点三个链接,扫一眼,关掉广告,再点两个,找到答案。为什么不让模型替你做这件事?」

他用搜索问过的问题包括:今天股市开盘吗(那天是总统日)、《单身地狱》第四季演员在哪找到的、Palantir股价为什么涨、Brian Johnson用什么牙膏。

引擎的时代结束了。对话的时代开始了。


轻步骤二:阅读的本质是对话

他上传了一篇Arc Institute关于DNA语言模型的论文PDF,30MB。ChatGPT花了几秒钟处理,把图片扔掉(可能),把文本转成token流,塞进context window。

「总结这篇论文。」

模型告诉他:这是Evo 2,一个能理解基因组的Foundation Model,可以预测突变如何影响蛋白质甚至整个生物体。

他继续问:「这个模型的训练数据从哪来?」「它跟AlphaFold有什么区别?」「它能用来设计新药吗?」

论文不再是静止的文本。它变成了一个可以追问的对象。


轻步骤三:语音的本质是减少摩擦

他50%的查询是用说的。

他按下F5键(绑定了SuperWhisper这个转录软件),说:「为什么天空是蓝色的,是因为反射了海洋吗?」松开F5,文本自动出现在输入框里。

在手机上,这个比例是80%。

他也展示了Advanced Voice Mode——真正的语音模型,不是转录+文本+合成这套假流程。他让ChatGPT用Yoda的声音解释瑞利散射(「蓝色天空显现,因散射光波较短,大气所为」),然后换成海盗口音,然后让它从1数到20,越快越好。

模型照做了。

「你能学一个狐狸叫吗?」他问。

「我不能模仿声音,」模型拒绝。

「你刚才学了牛叫。」

「……好吧,」模型妥协,发出尖锐的「Yip」声。


理论升华

想想你上次在图书馆查资料的经验。你要先找到那本书在哪个架子上,然后翻到那一章,然后用手指扫过每一行,直到找到你需要的那句话。

现在你不需要找架子。因为整个图书馆已经压缩进一个1TB的文件里,那个文件「大概记得」所有书的「大致内容」。

这就是语言模型:一个有损压缩的互联网。它记得维基百科上出现过1万次的东西,记不清只被提到过3次的东西。它的记忆截止于几个月前,因为训练一次太贵(几千万美元,3个月)。

但关键的转变是:你不再需要自己去图书馆找书。你只需要告诉这个压缩文件你想知道什么,它会把相关的「记忆碎片」拼给你看。

当你上传一份PDF时,你不是在教它新知识。你是在把那份PDF塞进它的「工作记忆」(context window)里,让它临时可以引用。这就像你考试时,老师允许你带一页cheat sheet——那页纸不会让你变聪明,但它让你在答题时有东西可查。


局限性提醒

Karpathy在视频里展示了一个失败案例:他让ChatGPT列出美国的主要LLM实验室,生成表格,标注资金和团队规模。

结果xAI(马斯克的公司)没在表里。Hugging Face在表里,但它其实不算LLM lab。Anthropic的融资额看起来也不对。

「把它当初稿,」他说,「不要当成真相。」

另一个问题是,不是所有模型都有相同的工具。Grok 3没有Python解释器,你让它算一个20位数乘以20位数,它会在脑子里硬算,然后给你一个错得离谱但看起来很像的答案。Claude有JavaScript执行环境,ChatGPT有Python,Gemini有时候能在脑子里算对,有时候不行。

「你得知道你在和谁说话,」他说,「不同的模型有不同的工具箱。如果它没有工具,它就会编。」


余韵收尾

视频最后,他举起手机,打开Advanced Voice Mode,把摄像头对准书架。

「这是什么书?」他问。

「那是成吉思汗与现代世界的缔造,Jack Weatherford写的,」模型回答。

「这个呢?」

「别闹了,费曼先生,Richard Feynman的趣事集。」

他把摄像头对准桌上一个白色小盒子。

「这是什么?」

「Aranet 4,便携式CO₂监测仪。测量二氧化碳、温度、湿度和气压,用来监控室内空气质量。」

「现在是713 ppm,这个值好吗?」

「还可以。室内空间正常水平。理想情况下应该低于800,超过1000就需要通风了。」

他关掉摄像头。镜头扫过那几块无用的吸音棉,扫过书架,扫过显示器,最后停在他脸上。

「我父母不会用ChatGPT,」他说,「但我会让他们用这个功能。拿手机对着东西,问问题。就这么简单。」

屏幕黑掉。

你想起开头那句话:100%的代码都是AI写的。

但他没说的是:这并不意味着程序员消失了。这意味着程序员的工作变成了「知道该问什么问题」。