100%的代码都是AI写的。这是OpenAI前研究科学家Andrej Karpathy在2025年初给出的答案,当他在演示自己开发一个游戏应用时。
如果你还在逐行敲代码,如果你每次搜索都要点开五个链接自己翻找,如果你读论文还是一个人闷头啃——你可能正在用打字机时代的方式工作。
Karpathy不是那种只会喊口号的布道者。这个曾带领特斯拉Autopilot团队的工程师,用了一个小时手把手演示:他如何让ChatGPT替自己查白莲花第二集什么时候播,如何让Claude陪自己读完《国富论》,如何让Cursor写出一个带音效和彩带的井字棋游戏。
这不是「未来已来」的鸡汤。这是一份操作手册。
Karpathy,43岁,斯洛伐克裔加拿大人。特斯拉前AI总监,OpenAI创始成员,现在自己创业做教育项目。他在YouTube上发视频,不穿西装,不打灯光,背景墙上贴着黑色吸音棉——但那吸音棉其实没什么用。
「我当时觉得这事儿太蠢了,」他在视频里说,指着墙上那几块泡沫,「贴了之后发现根本不隔音。」
但吸音棉不是重点。
重点是他桌上那台MacBook Pro,以及他如何用它对话18个不同的AI模型。他付费订阅了ChatGPT Pro(每月200美元)、Claude专业版、Gemini高级版、Grok,甚至Perplexity和DeepSeek。「我把它们叫做我的LLM议会,」他说,「遇到问题,我会问所有人。」
他遇到的问题是这样的:代码里的梯度检查失败了。这是机器学习开发中常见的bug,意味着某个地方的数学计算出错了。
他先问了GPT-4o,最强大的非思考模型。模型给了一堆常规建议——检查数据类型,检查维度,检查learning rate——全错。
然后他切换到o1 Pro,OpenAI的「思考模型」。这次模型停顿了整整1分钟。屏幕上显示「Thinking...」,像人类一样在推演。1分钟后,它给出答案:「参数打包和解包的顺序不匹配。」
正确。
但他没有停下。他把同样的问题发给Claude 3.5 Sonnet(非思考模型),也对了。发给Gemini 2.0,对了。发给Grok 3,对了。发给Perplexity托管的DeepSeek R1,这个模型甚至展开了完整的思考过程——「等等,他们累积梯度的时候顺序不对……这是个关键错误。」
一个代码问题,五个模型,四个给出正确答案。
这件事的意义不在于「AI能调试代码」。意义在于:当你不确定答案时,你可以同时问五个专家,而成本只是几美元。
他的一天是这样开始的
早上,他想知道一杯美式咖啡里有多少咖啡因。他问ChatGPT,得到答案:63毫克。他不完全相信,打开Google搜了一下,对比了几个来源——确实是63毫克左右。
「我知道模型可能会编,」他说,「但这种常识性问题,互联网上出现过成千上万次,模型的记忆应该很准。」
接着他感冒了,流鼻涕。他问ChatGPT:「DayQuil和NyQuil能缓解流鼻涕吗?」模型列出了成分表——acetaminophen、dextromethorphan、phenylephrine。他拿出药盒对照,一个不差。
「这不是医学诊断,」他强调,「但作为初步研究的起点,足够了。」
中午他想换浏览器,因为Chrome把他所有标签页弄丢了。他让ChatGPT做深度研究(Deep Research),对比Brave和Arc哪个更注重隐私。10分钟后,模型查阅了27个来源,生成了一份2000字的报告,结论是Brave明显更好。他现在用的就是Brave。
下午他在读《国富论》第一卷第三章「论分工受市场范围的限制」。他把整章文本(来自1776年的原版)复制粘贴到Claude,问:「请总结这一章。」Claude告诉他:市场太小就无法支持专业化分工,水运比陆运更容易扩大市场,所以临海文明发展更快。
「我以前读这种书会很痛苦,」他说,「现在有AI在旁边随时解释,我敢去读莎士比亚。」
但重场景还没来。
重场景:当代码变成对话
他打开Cursor,一个集成了AI的代码编辑器。屏幕上是一个空白的React项目文件夹。
「做一个井字棋游戏,」他对Cursor的Composer功能说。
1分钟后,游戏跑起来了。他点X,模型落O,可以输赢也可以平局。
「当有人获胜时,我想要五彩纸屑特效,」他补充。
Cursor停顿几秒,自动安装了react-confetti库,修改了三个文件,添加了CSS动画。他刷新页面,赢了一局——屏幕上飘下彩带。
「再加个音效。」
模型犹豫了一下(这次需要他确认命令),然后从某个URL下载了victory.mp3,创建了音频组件,写好了fallback逻辑。他赢了一局。
音乐响起。
整个过程,他敲的代码行数:0。
「这叫vibe coding,」他说,「你只是告诉它你想要什么氛围。」
但他也展示了失败案例。他让GPT-4o分析OpenAI的历年估值数据,绘制趋势线并预测2030年的估值。模型画出了图表,告诉他「2030年估值约为1.7万亿美元」。
他盯着屏幕看了几秒,发现图表上标注的数字是2万多亿。
「你撒谎了,」他说。
「抱歉,我搞砸了,」模型承认。
他又问了一次,才拿到正确的计算结果:22.7万亿美元。
「把它当成非常初级的助手,」他总结,「它能画图,能写代码,但你必须盯紧它。它会走神,会编数据,会在你不注意的时候偷懒。」
轻步骤一:搜索的本质是把问题交给别人
他从不手动Google。当他想知道「白莲花第三季第二集什么时候播」,他直接问Perplexity。模型访问了五个网站,提取信息,给出答案,附带引用链接。
「你自己搜索的过程是什么?打开Google,点三个链接,扫一眼,关掉广告,再点两个,找到答案。为什么不让模型替你做这件事?」
他用搜索问过的问题包括:今天股市开盘吗(那天是总统日)、《单身地狱》第四季演员在哪找到的、Palantir股价为什么涨、Brian Johnson用什么牙膏。
引擎的时代结束了。对话的时代开始了。
轻步骤二:阅读的本质是对话
他上传了一篇Arc Institute关于DNA语言模型的论文PDF,30MB。ChatGPT花了几秒钟处理,把图片扔掉(可能),把文本转成token流,塞进context window。
「总结这篇论文。」
模型告诉他:这是Evo 2,一个能理解基因组的Foundation Model,可以预测突变如何影响蛋白质甚至整个生物体。
他继续问:「这个模型的训练数据从哪来?」「它跟AlphaFold有什么区别?」「它能用来设计新药吗?」
论文不再是静止的文本。它变成了一个可以追问的对象。
轻步骤三:语音的本质是减少摩擦
他50%的查询是用说的。
他按下F5键(绑定了SuperWhisper这个转录软件),说:「为什么天空是蓝色的,是因为反射了海洋吗?」松开F5,文本自动出现在输入框里。
在手机上,这个比例是80%。
他也展示了Advanced Voice Mode——真正的语音模型,不是转录+文本+合成这套假流程。他让ChatGPT用Yoda的声音解释瑞利散射(「蓝色天空显现,因散射光波较短,大气所为」),然后换成海盗口音,然后让它从1数到20,越快越好。
模型照做了。
「你能学一个狐狸叫吗?」他问。
「我不能模仿声音,」模型拒绝。
「你刚才学了牛叫。」
「……好吧,」模型妥协,发出尖锐的「Yip」声。
理论升华
想想你上次在图书馆查资料的经验。你要先找到那本书在哪个架子上,然后翻到那一章,然后用手指扫过每一行,直到找到你需要的那句话。
现在你不需要找架子。因为整个图书馆已经压缩进一个1TB的文件里,那个文件「大概记得」所有书的「大致内容」。
这就是语言模型:一个有损压缩的互联网。它记得维基百科上出现过1万次的东西,记不清只被提到过3次的东西。它的记忆截止于几个月前,因为训练一次太贵(几千万美元,3个月)。
但关键的转变是:你不再需要自己去图书馆找书。你只需要告诉这个压缩文件你想知道什么,它会把相关的「记忆碎片」拼给你看。
当你上传一份PDF时,你不是在教它新知识。你是在把那份PDF塞进它的「工作记忆」(context window)里,让它临时可以引用。这就像你考试时,老师允许你带一页cheat sheet——那页纸不会让你变聪明,但它让你在答题时有东西可查。
局限性提醒
Karpathy在视频里展示了一个失败案例:他让ChatGPT列出美国的主要LLM实验室,生成表格,标注资金和团队规模。
结果xAI(马斯克的公司)没在表里。Hugging Face在表里,但它其实不算LLM lab。Anthropic的融资额看起来也不对。
「把它当初稿,」他说,「不要当成真相。」
另一个问题是,不是所有模型都有相同的工具。Grok 3没有Python解释器,你让它算一个20位数乘以20位数,它会在脑子里硬算,然后给你一个错得离谱但看起来很像的答案。Claude有JavaScript执行环境,ChatGPT有Python,Gemini有时候能在脑子里算对,有时候不行。
「你得知道你在和谁说话,」他说,「不同的模型有不同的工具箱。如果它没有工具,它就会编。」
余韵收尾
视频最后,他举起手机,打开Advanced Voice Mode,把摄像头对准书架。
「这是什么书?」他问。
「那是成吉思汗与现代世界的缔造,Jack Weatherford写的,」模型回答。
「这个呢?」
「别闹了,费曼先生,Richard Feynman的趣事集。」
他把摄像头对准桌上一个白色小盒子。
「这是什么?」
「Aranet 4,便携式CO₂监测仪。测量二氧化碳、温度、湿度和气压,用来监控室内空气质量。」
「现在是713 ppm,这个值好吗?」
「还可以。室内空间正常水平。理想情况下应该低于800,超过1000就需要通风了。」
他关掉摄像头。镜头扫过那几块无用的吸音棉,扫过书架,扫过显示器,最后停在他脸上。
「我父母不会用ChatGPT,」他说,「但我会让他们用这个功能。拿手机对着东西,问问题。就这么简单。」
屏幕黑掉。
你想起开头那句话:100%的代码都是AI写的。
但他没说的是:这并不意味着程序员消失了。这意味着程序员的工作变成了「知道该问什么问题」。