95% 的工程师每天都在用 Codex 写代码,100% 的代码提交都由 Codex 审查。
这是 OpenAI 内部的真实数据。如果你还在一行一行敲代码,你可能正在用打字机时代的方式工作——而世界上最懂 AI 的公司,已经把编程这件事彻底重构了。
Sherwin Wu 是 OpenAI API 工程负责人。他管理的团队,负责全球几乎所有 AI 创业公司赖以生存的开发平台。在这次对话里,他没有讲宏大的 AGI 愿景,而是掀开了 OpenAI 内部最真实的一角:工程师们如何用 AI 改造自己的工作,又在这个过程中变成了什么。
Sherwin 在 2014 年进入科技行业。他说那之后有五六年时间,整个行业都很沉闷。但最近三年,是他职业生涯中「最疯狂、最energizing」的时期。他在 Quora 做过新闻流工程师,每天早上被二三十个代码审查请求淹没,讨厌这份工作。后来去了 OpenDoor,带队搭建房价评估模型——那是个需要量化「门口好不好看」「地下室算不算卧室」这种模糊问题的活儿。
2020 年,他加入 OpenAI,负责 API 平台。三年后的今天,他的团队里几乎没人再手写代码了。
100% AI 生成代码的极端实验
OpenAI 内部有个极端实验:一个团队维护着一个 100% 由 Codex 生成的代码库。
不是「AI 辅助写一部分」,而是每一行代码都必须由 Codex 产出。工程师不能卷起袖子自己动手——这个逃生通道被堵死了。
Sherwin 说:「这个团队遇到的最大问题,不是『AI 写不出代码』,而是『AI 不知道该怎么写』。」
具体来说,是上下文信息不足。模型需要的tribal knowledge(部落知识)没有被编码进代码库。
解决方法听起来很简单:写文档。但不是传统意义上给人看的文档,而是给 AI 看的「技能文件」(skills files)。把脑子里那些「这里为什么这么写」「那个接口为什么要这样调」的隐性知识,全部显性化,扔进代码库。
模型读取这些文件,就像工程师翻阅项目 Wiki。区别是,AI 能同时记住几千页文档,而人类记不住。
这个实验还在进行。Sherwin 说他们很快会发一篇博客,分享从中学到的「范式和最佳实践」。但最有意思的不是技术细节,而是这个实验背后的假设:如果彻底依赖 AI 写代码,工程师的工作会变成什么?
工程师正在变成「巫师」
答案是:工程师正在变成技术主管,甚至是「管理者」。
Sherwin 的团队里,很多工程师同时拉着 10 到 20 个 Codex 线程。他们不是在写代码,而是在「指挥」一群 AI 代理干活。检查进度,纠正方向,合并结果。
「感觉就像我们是巫师,在施放各种咒语。」
Sherwin 引用了一本 1980 年的编程教材《SICP》(《计算机程序的构造和解释》)。那本书把程序员比作巫师,编程语言是咒语,你念出咒语,计算机就会执行。
四十多年后,这个比喻终于变成了现实——只不过,现在的咒语是自然语言。
但 Sherwin 更喜欢另一个比喻:《幻想曲》里的「魔法师的学徒」。米老鼠找到了魔法师的帽子,让扫帚自己去提水。然后他睡着了。醒来时,整个房间都被淹了。
你得知道自己在做什么。不能真的睡着。
问题出在下一步。
工程师们开始感受到一种新的压力:当 AI 代理不工作时,那种无能为力的焦虑。
你启动了五个 Codex 任务,三个在跑,一个卡住了,一个输出了你完全看不懂的代码。你不知道该先救哪个。以前,代码是你自己写的,出问题了你知道怎么修。现在,代码是 AI 写的,测试也过了,但你不知道它为什么能工作。
Sherwin 承认这种感觉「很奇怪」。但他也说,这正是这个时代有意思的地方:工程师们正在摸索如何与这些工具共处,而规则还没有被写下来。
「我们可能只有 12 到 24 个月的窗口期,能自己定义这些标准。」
这个窗口期之后会发生什么?他没说。但暗示很明显:当 AI 变得更强,当最佳实践被固化,现在这些「摸着石头过河」的探索者,会成为下一个时代的技术领袖。
如何让 AI 真正提效:三个关键步骤
第一步,把 AI 扔给最烦人的任务。
代码审查是 Sherwin 最讨厌的工作。在 Quora 时,他负责新闻流模块,每天早上打开电脑,20 到 30 个 PR 等着他审。他拖延,然后数字涨到 50。
现在,Codex 审查 OpenAI 内部 100% 的 PR。
Sherwin 说,O2-52(一个模型版本)特别擅长代码审查,尤其是当你「给它正确的方向」时。**原来需要 10 到 15 分钟的审查工作,现在只需要 2 到 3 分钟。**小型 PR 甚至不需要人类审查——作者看一眼 Codex 的建议,确认没问题,就直接合并了。
「代码审查的好处是有第二双眼睛帮你检查。Codex 就是那双眼睛,而且它很聪明。」
这不只是关于代码审查。OpenAI 内部的 CI 流程——代码提交后的测试、lint 检查、部署——都被 Codex 自动化了。lint 报错?Codex 自动修复,重启 CI。测试失败?Codex 分析日志,提交补丁。
工程师们把时间花在了他们真正关心的事情上:设计系统,做架构决策,解决有创造性的问题。
第二步,拉长 AI 能干活的时间。
Sherwin 提到了一个叫「SWE-bench」的基准测试,专门衡量模型能完成多长时间的软件工程任务。目前,前沿模型能以 50% 的成功率完成「多小时」级别的任务,80% 成功率的任务长度在一小时以内。
听起来不算多?看看趋势图。
Sherwin 说,如果按照这个趋势,12 到 18 个月内,模型可能可以完成「一整天」的任务。你早上给它分配工作,晚上回来检查结果。
**这会彻底改变产品设计。**现在的 Codex 工具,包括 Cursor、Claude Code,都是为「分钟级任务」优化的。你在 CLI 里看着它跑,每隔几分钟就给反馈。但如果任务变成六小时、一天,你不可能一直盯着。
产品需要支持「异步管理」。你需要能暂停 AI,检查中间结果,调整方向,然后让它继续。这是一套全新的交互模式。
Sherwin 还特别看好语音模型在企业场景的应用。「大家都在讨论代码,都是文本。但世界上很多商业活动是通过说话完成的。」客服、会议、电话销售——这些场景在接下来 12 到 18 个月会有「更多解锁」。
第三步,不要为今天的模型构建产品。
这是 Sherwin 给创业者最核心的建议:「确保你在为模型的未来能力构建,而不是为今天的能力。」
他举了个例子。2023 年,整个行业都在疯狂讨论向量数据库。大家觉得这是让 AI 理解企业知识的唯一方法:把所有文档 embed 成向量,存进数据库,用复杂的检索算法在合适的时候把信息喂给模型。
结果呢?模型变强了,这套脚手架就被吃掉了。
「模型会把你的脚手架当早餐吃掉。」
现在更好的方法是:给模型一套搜索工具,让它自己决定去哪里找信息。可以是向量数据库,也可以是文件系统,甚至就是一堆 Markdown 文件。模型足够聪明,能自己搞定。
这带来一个反直觉的结论:别太听客户的。
不是说不要跟客户聊,而是要小心「局部最优」陷阱。客户会跟你说,「我需要更好的向量数据库」「我需要更强的 agent 框架」。如果你照着做,三个月后模型升级,你的产品就过时了。
正确的做法是:构建一个在「80% 能力」时勉强能用的产品。等模型到了 90%、95%,产品突然就起飞了。
Sherwin 说,OpenAI API 团队也犯过这个错误。「我们左转右转,后来发现模型进化了,之前的设计都不对了。」但这是这个领域的常态。「这就是在 AI 时代创业的代价——也是让它exciting的原因。」
「苦涩教训」的另一个版本
这背后其实是『苦涩教训』(Bitter Lesson)的另一个版本。
AI 领域有个著名的教训:不要过度设计复杂的逻辑和规则,scaling up(扩大计算规模)才是王道。与其给模型加一堆人工特征,不如给它更多数据、更多算力,让它自己学。
现在,这个教训被复制到了「用 AI 构建产品」这件事上。
与其围绕模型设计复杂的脚手架,不如简化架构,相信模型会变强。Sherwin 说,OpenAI API 团队也在每天学习这个教训。「模型变好了,我们之前做的很多东西就没用了。」
但这也意味着,现在流行的工具——包括 skills files、agents.md——未来可能也会被模型「吃掉」。Sherwin 没有否认这一点。他只是说,「这是一个移动的靶子。这就是为什么这件事既exciting又annoying。」
管理者的变化
工程师的工作变了,管理者的工作呢?
Sherwin 说,管理者的变化没那么大。「还没有Codex for managers。」但他看到了两个趋势。
第一,AI 让顶尖员工和普通员工的差距拉大了。
那些真正会用 Codex 的工程师,开 PR 的速度比不用的人快 70%——而且这个差距还在扩大。Sherwin 的管理哲学是,把 50% 以上的时间花在团队里最优秀的 10% 身上。「确保他们不被 block,确保他们开心,确保他们有发挥空间。」
在 AI 时代,这条原则变得更重要。因为顶尖员工会用 AI 把自己变成「超级个体」,而其他人可能还在原地踏步。
第二,管理者能管理的团队规模会扩大。
Sherwin 用 ChatGPT 做绩效考核。把它接入 GitHub、Notion、Google Docs,让它生成一份「这个人过去 12 个月都做了什么」的报告。以前,这需要管理者手动翻聊天记录、查提交历史、问其他人。现在,AI 几分钟就能给你一份详细的总结。
「就像工程师能管理 20 到 30 个 Codex 线程一样,我觉得管理者也能管理更大的团队。」传统的「六到八人」团队规模,可能会被打破。
普通公司如何部署 AI
工程师变成了管理者,管理者变成了超级管理者。那普通公司呢?
Sherwin 跟很多客户聊过,发现很多 AI 部署项目的 ROI 是负的。
他说,硅谷是个泡泡。大家在推特上讨论 prompt 工程、MCP、agents.md,觉得全世界都在疯狂用 AI。但事实是,美国大部分人不是软件工程师,不关注每一个模型发布,甚至不知道怎么用这些工具。
他去一些企业,发现员工在用 AI 做「最基础的事情」,而且「对这项技术几乎没有理解」。高管说,「我们要 AI First」,员工说,「好吧,但我不知道该怎么用」。
反模式是:纯自上而下的推动。
CEO 宣布全公司 AI 转型,把 AI 使用率纳入绩效考核,但没有人教员工怎么用,也没有人分享最佳实践。员工四处张望,发现没人会用,也就放弃了。
正确的模式是:自上而下的支持 + 自下而上的布道。
找到公司里最会用 AI 的那群人——通常不是工程师,而是「技术相邻」的人,比如不写代码但是 Excel 大师的运营负责人。把他们组成一个「老虎队」,让他们探索工具边界,做内部分享,办黑客松,建立兴奋感。
Sherwin 说,OpenAI 内部就是这么做的。公司一直想「AI-centric」,但真正起飞是在 Codex 发布之后——因为工程师们终于能把 AI 用在自己的工作上了。
「每个人的工作都不一样。软件工程和财务不一样,财务和运营不一样,运营和销售不一样。这些最后一公里的细节,必须以自下而上的方式解决。」
被硅谷忽视的最大机会
但 Sherwin 最看好的,其实不是工程师的未来。
他说,硅谷的人容易忘记,世界上大部分工作不是「开放式的知识工作」。
软件工程是开放式的:你不会重复构建同一个功能,每个问题都需要创造性。但大部分工作是「业务流程」——可重复的操作,有标准流程,不需要太多创新,只需要把事情做对。
客服是这样,行政是这样,很多企业内部的财务、合规、采购工作也是这样。
「如果你给公用事业公司打电话,他们在走流程。如果你给支持热线打电话,他们也在走流程。」这些流程通常有明确的 SOP(标准操作程序),关键是执行,而不是发明。
Sherwin 说,这才是 AI 最大的机会——而硅谷几乎不谈论它,因为「它跟我们的日常工作太不一样了」。
「业务流程自动化。可重复的操作,高确定性,深度集成企业数据和系统。这里有巨大的机会,但我们不讨论,因为它不在我们的舒适区。」
别睡着
最后,Sherwin 留了一句话。
「接下来两到三年,会是科技行业很长时间以来最有意思的时期。不要把它当作理所当然。」
他说,自己 2014 年进入科技行业,头几年很好,然后有五六年很无聊。「但最近三年是我职业生涯中最疯狂、最有活力的阶段。我觉得接下来两到三年会延续这种状态。」
然后呢?
「某个时候,这波浪潮会结束,一切会变得更加渐进。但在那之前,我们会探索很多很酷的东西,发明很多新东西,改变这个世界,改变我们的工作方式。」
他没有说浪潮会在什么时候结束。但他说,自己在努力「不把这件事当作理所当然」。
也许这是最重要的一条建议。不是「学会某个工具」,不是「掌握某个框架」,而是:意识到你正处在一个罕见的时刻,然后全力投入进去。
两个字:别睡。
