降噪 - AI精选内容平台

95% 的工程师每天都在用 Codex 写代码，100% 的代码提交都由 Codex 审查。

这是 OpenAI 内部的真实数据。如果你还在一行一行敲代码，你可能正在用打字机时代的方式工作——而世界上最懂 AI 的公司，已经把编程这件事彻底重构了。

Sherwin Wu 是 OpenAI API 工程负责人。他管理的团队，负责全球几乎所有 AI 创业公司赖以生存的开发平台。在这次对话里，他没有讲宏大的 AGI 愿景，而是掀开了 OpenAI 内部最真实的一角：工程师们如何用 AI 改造自己的工作，又在这个过程中变成了什么。

Sherwin 在 2014 年进入科技行业。他说那之后有五六年时间，整个行业都很沉闷。但最近三年，是他职业生涯中「最疯狂、最energizing」的时期。他在 Quora 做过新闻流工程师，每天早上被二三十个代码审查请求淹没，讨厌这份工作。后来去了 OpenDoor，带队搭建房价评估模型——那是个需要量化「门口好不好看」「地下室算不算卧室」这种模糊问题的活儿。

2020 年，他加入 OpenAI，负责 API 平台。三年后的今天，他的团队里几乎没人再手写代码了。

100% AI 生成代码的极端实验

OpenAI 内部有个极端实验：一个团队维护着一个 100% 由 Codex 生成的代码库。

不是「AI 辅助写一部分」，而是每一行代码都必须由 Codex 产出。工程师不能卷起袖子自己动手——这个逃生通道被堵死了。

Sherwin 说：「这个团队遇到的最大问题，不是『AI 写不出代码』，而是『AI 不知道该怎么写』。」

具体来说，是上下文信息不足。模型需要的tribal knowledge（部落知识）没有被编码进代码库。

解决方法听起来很简单：写文档。但不是传统意义上给人看的文档，而是给 AI 看的「技能文件」（skills files）。把脑子里那些「这里为什么这么写」「那个接口为什么要这样调」的隐性知识，全部显性化，扔进代码库。

模型读取这些文件，就像工程师翻阅项目 Wiki。区别是，AI 能同时记住几千页文档，而人类记不住。

这个实验还在进行。Sherwin 说他们很快会发一篇博客，分享从中学到的「范式和最佳实践」。但最有意思的不是技术细节，而是这个实验背后的假设：如果彻底依赖 AI 写代码，工程师的工作会变成什么？

工程师正在变成「巫师」

答案是：工程师正在变成技术主管，甚至是「管理者」。

Sherwin 的团队里，很多工程师同时拉着 10 到 20 个 Codex 线程。他们不是在写代码，而是在「指挥」一群 AI 代理干活。检查进度，纠正方向，合并结果。

「感觉就像我们是巫师，在施放各种咒语。」

Sherwin 引用了一本 1980 年的编程教材《SICP》（《计算机程序的构造和解释》）。那本书把程序员比作巫师，编程语言是咒语，你念出咒语，计算机就会执行。

四十多年后，这个比喻终于变成了现实——只不过，现在的咒语是自然语言。

但 Sherwin 更喜欢另一个比喻：《幻想曲》里的「魔法师的学徒」。米老鼠找到了魔法师的帽子，让扫帚自己去提水。然后他睡着了。醒来时，整个房间都被淹了。

你得知道自己在做什么。不能真的睡着。

问题出在下一步。

工程师们开始感受到一种新的压力：当 AI 代理不工作时，那种无能为力的焦虑。

你启动了五个 Codex 任务，三个在跑，一个卡住了，一个输出了你完全看不懂的代码。你不知道该先救哪个。以前，代码是你自己写的，出问题了你知道怎么修。现在，代码是 AI 写的，测试也过了，但你不知道它为什么能工作。

Sherwin 承认这种感觉「很奇怪」。但他也说，这正是这个时代有意思的地方：工程师们正在摸索如何与这些工具共处，而规则还没有被写下来。

「我们可能只有 12 到 24 个月的窗口期，能自己定义这些标准。」

这个窗口期之后会发生什么？他没说。但暗示很明显：当 AI 变得更强，当最佳实践被固化，现在这些「摸着石头过河」的探索者，会成为下一个时代的技术领袖。

如何让 AI 真正提效：三个关键步骤

第一步，把 AI 扔给最烦人的任务。

代码审查是 Sherwin 最讨厌的工作。在 Quora 时，他负责新闻流模块，每天早上打开电脑，20 到 30 个 PR 等着他审。他拖延，然后数字涨到 50。

现在，Codex 审查 OpenAI 内部 100% 的 PR。

Sherwin 说，O2-52（一个模型版本）特别擅长代码审查，尤其是当你「给它正确的方向」时。**原来需要 10 到 15 分钟的审查工作，现在只需要 2 到 3 分钟。**小型 PR 甚至不需要人类审查——作者看一眼 Codex 的建议，确认没问题，就直接合并了。

「代码审查的好处是有第二双眼睛帮你检查。Codex 就是那双眼睛，而且它很聪明。」

这不只是关于代码审查。OpenAI 内部的 CI 流程——代码提交后的测试、lint 检查、部署——都被 Codex 自动化了。lint 报错？Codex 自动修复，重启 CI。测试失败？Codex 分析日志，提交补丁。

工程师们把时间花在了他们真正关心的事情上：设计系统，做架构决策，解决有创造性的问题。

第二步，拉长 AI 能干活的时间。

Sherwin 提到了一个叫「SWE-bench」的基准测试，专门衡量模型能完成多长时间的软件工程任务。目前，前沿模型能以 50% 的成功率完成「多小时」级别的任务，80% 成功率的任务长度在一小时以内。

听起来不算多？看看趋势图。

Sherwin 说，如果按照这个趋势，12 到 18 个月内，模型可能可以完成「一整天」的任务。你早上给它分配工作，晚上回来检查结果。

**这会彻底改变产品设计。**现在的 Codex 工具，包括 Cursor、Claude Code，都是为「分钟级任务」优化的。你在 CLI 里看着它跑，每隔几分钟就给反馈。但如果任务变成六小时、一天，你不可能一直盯着。

产品需要支持「异步管理」。你需要能暂停 AI，检查中间结果,调整方向，然后让它继续。这是一套全新的交互模式。

Sherwin 还特别看好语音模型在企业场景的应用。「大家都在讨论代码，都是文本。但世界上很多商业活动是通过说话完成的。」客服、会议、电话销售——这些场景在接下来 12 到 18 个月会有「更多解锁」。

第三步，不要为今天的模型构建产品。

这是 Sherwin 给创业者最核心的建议：「确保你在为模型的未来能力构建，而不是为今天的能力。」

他举了个例子。2023 年，整个行业都在疯狂讨论向量数据库。大家觉得这是让 AI 理解企业知识的唯一方法：把所有文档 embed 成向量，存进数据库,用复杂的检索算法在合适的时候把信息喂给模型。

结果呢？模型变强了，这套脚手架就被吃掉了。

「模型会把你的脚手架当早餐吃掉。」

现在更好的方法是：给模型一套搜索工具，让它自己决定去哪里找信息。可以是向量数据库，也可以是文件系统，甚至就是一堆 Markdown 文件。模型足够聪明，能自己搞定。

这带来一个反直觉的结论：别太听客户的。

不是说不要跟客户聊，而是要小心「局部最优」陷阱。客户会跟你说，「我需要更好的向量数据库」「我需要更强的 agent 框架」。如果你照着做,三个月后模型升级,你的产品就过时了。

正确的做法是：构建一个在「80% 能力」时勉强能用的产品。等模型到了 90%、95%,产品突然就起飞了。

Sherwin 说，OpenAI API 团队也犯过这个错误。「我们左转右转,后来发现模型进化了,之前的设计都不对了。」但这是这个领域的常态。「这就是在 AI 时代创业的代价——也是让它exciting的原因。」

「苦涩教训」的另一个版本

这背后其实是『苦涩教训』（Bitter Lesson）的另一个版本。

AI 领域有个著名的教训：不要过度设计复杂的逻辑和规则,scaling up（扩大计算规模）才是王道。与其给模型加一堆人工特征,不如给它更多数据、更多算力,让它自己学。

现在,这个教训被复制到了「用 AI 构建产品」这件事上。

与其围绕模型设计复杂的脚手架,不如简化架构,相信模型会变强。Sherwin 说,OpenAI API 团队也在每天学习这个教训。「模型变好了,我们之前做的很多东西就没用了。」

但这也意味着,现在流行的工具——包括 skills files、agents.md——未来可能也会被模型「吃掉」。Sherwin 没有否认这一点。他只是说,「这是一个移动的靶子。这就是为什么这件事既exciting又annoying。」

管理者的变化

工程师的工作变了,管理者的工作呢？

Sherwin 说,管理者的变化没那么大。「还没有Codex for managers。」但他看到了两个趋势。

第一,AI 让顶尖员工和普通员工的差距拉大了。

那些真正会用 Codex 的工程师,开 PR 的速度比不用的人快 70%——而且这个差距还在扩大。Sherwin 的管理哲学是,把 50% 以上的时间花在团队里最优秀的 10% 身上。「确保他们不被 block,确保他们开心,确保他们有发挥空间。」

在 AI 时代,这条原则变得更重要。因为顶尖员工会用 AI 把自己变成「超级个体」,而其他人可能还在原地踏步。

第二,管理者能管理的团队规模会扩大。

Sherwin 用 ChatGPT 做绩效考核。把它接入 GitHub、Notion、Google Docs,让它生成一份「这个人过去 12 个月都做了什么」的报告。以前,这需要管理者手动翻聊天记录、查提交历史、问其他人。现在,AI 几分钟就能给你一份详细的总结。

「就像工程师能管理 20 到 30 个 Codex 线程一样,我觉得管理者也能管理更大的团队。」传统的「六到八人」团队规模,可能会被打破。

普通公司如何部署 AI

工程师变成了管理者,管理者变成了超级管理者。那普通公司呢？

Sherwin 跟很多客户聊过,发现很多 AI 部署项目的 ROI 是负的。

他说,硅谷是个泡泡。大家在推特上讨论 prompt 工程、MCP、agents.md,觉得全世界都在疯狂用 AI。但事实是,美国大部分人不是软件工程师,不关注每一个模型发布,甚至不知道怎么用这些工具。

他去一些企业,发现员工在用 AI 做「最基础的事情」,而且「对这项技术几乎没有理解」。高管说,「我们要 AI First」,员工说,「好吧,但我不知道该怎么用」。

反模式是:纯自上而下的推动。

CEO 宣布全公司 AI 转型,把 AI 使用率纳入绩效考核,但没有人教员工怎么用,也没有人分享最佳实践。员工四处张望,发现没人会用,也就放弃了。

正确的模式是:自上而下的支持 + 自下而上的布道。

找到公司里最会用 AI 的那群人——通常不是工程师,而是「技术相邻」的人,比如不写代码但是 Excel 大师的运营负责人。把他们组成一个「老虎队」,让他们探索工具边界,做内部分享,办黑客松,建立兴奋感。

Sherwin 说,OpenAI 内部就是这么做的。公司一直想「AI-centric」,但真正起飞是在 Codex 发布之后——因为工程师们终于能把 AI 用在自己的工作上了。

「每个人的工作都不一样。软件工程和财务不一样,财务和运营不一样,运营和销售不一样。这些最后一公里的细节,必须以自下而上的方式解决。」

被硅谷忽视的最大机会

但 Sherwin 最看好的,其实不是工程师的未来。

他说,硅谷的人容易忘记,世界上大部分工作不是「开放式的知识工作」。

软件工程是开放式的:你不会重复构建同一个功能,每个问题都需要创造性。但大部分工作是「业务流程」——可重复的操作,有标准流程,不需要太多创新,只需要把事情做对。

客服是这样,行政是这样,很多企业内部的财务、合规、采购工作也是这样。

「如果你给公用事业公司打电话,他们在走流程。如果你给支持热线打电话,他们也在走流程。」这些流程通常有明确的 SOP（标准操作程序),关键是执行,而不是发明。

Sherwin 说,这才是 AI 最大的机会——而硅谷几乎不谈论它,因为「它跟我们的日常工作太不一样了」。

「业务流程自动化。可重复的操作,高确定性,深度集成企业数据和系统。这里有巨大的机会,但我们不讨论,因为它不在我们的舒适区。」

别睡着

最后,Sherwin 留了一句话。

「接下来两到三年,会是科技行业很长时间以来最有意思的时期。不要把它当作理所当然。」

他说,自己 2014 年进入科技行业,头几年很好,然后有五六年很无聊。「但最近三年是我职业生涯中最疯狂、最有活力的阶段。我觉得接下来两到三年会延续这种状态。」

然后呢？

「某个时候,这波浪潮会结束,一切会变得更加渐进。但在那之前,我们会探索很多很酷的东西,发明很多新东西,改变这个世界,改变我们的工作方式。」

他没有说浪潮会在什么时候结束。但他说,自己在努力「不把这件事当作理所当然」。

也许这是最重要的一条建议。不是「学会某个工具」,不是「掌握某个框架」,而是:意识到你正处在一个罕见的时刻,然后全力投入进去。

两个字:别睡。

工程师正在变成巫师：OpenAI内部如何用AI重构软件开发

金句精选