降噪 - AI精选内容平台

3人，18天，一个全新的Android应用从零到上线。再用10天打磨，第28天推向公众。这是OpenAI Sora团队用Codex创造的记录。

如果你还在逐行敲代码，你可能正在用打字机时代的方式工作。

Alexander Embaricos，OpenAI Codex产品负责人，在进入OpenAI之前已经创业五年。但他坦诚地说，那时候对「快」的理解太天真了。每个创业者都觉得自己的公司很快，人才标准很高，野心很大。直到他真正进入OpenAI，才重新理解了这些词的含义。

Codex现在每周服务数万亿Token，是OpenAI使用量最大的编程模型。自去年8月GPT-5发布以来，增长了20倍。但Alexander记得，在增长爆发之前，他们犯过一个错误——太相信内部测试的信号了。

「在OpenAI内部，Codex Cloud（云端版本）非常受欢迎，」Alexander说，「我们每天训练推理模型，习惯了异步工作方式。给Codex写个任务描述，让它在云端跑几个小时，回来看结果。这对我们来说很自然。」

问题出在这里。

OpenAI的工程师生活在未来。他们用AI训练AI，用代理管理代理，甚至让Codex审查自己的训练代码，抓到过关键的配置错误。内部狗粮测试的信号是：Codex Cloud很好用。

但市场的真实反馈是：太难上手了。

「你得先配置云端环境，给模型设置工具权限，学会怎么写任务提示，」Alexander解释，「这就像雇了个远程队友，但你永远不能跟他打电话，只能通过异步消息沟通。对某些团队有效，但大多数人第一次用会卡住。」

转折点是他们决定「回到现在」。

Codex的第二版不再活在云端，而是直接装进工程师的IDE和终端。它在你的电脑上，在沙箱里运行，有权限访问你的依赖库。需要运行命令？它自己跑。命令在沙箱里不支持？它会问你。

这个决策的底层逻辑是「队友入职模型」。

想象你雇了个新人，给他一台全新的笔记本，没装任何软件，没有任何服务的密码。他能干什么？什么都干不了。但如果你跟他并肩工作，他需要某个权限时你随手给他，需要某个工具时你帮他装上，三个月后，他就能独立接任务了。

Codex的本地版本做的就是这件事。它先在你身边「实习」，看你怎么工作，学会你的工具链，记住你的配置习惯。等它攒够了上下文，你就可以把它「升职」，让它独立去云端跑长任务。

这个设计直接引爆了增长。从8月到现在，Codex用户增长20倍，成为OpenAI API中使用量最大的编程模型。工程师不需要学新的工作方式，只需要装个插件，Codex就开始在他们的工作流里提供帮助。

但Alexander很清楚，写代码从来不是终点。

「现在工程师最大的痛苦是什么？」他停顿了一下，「审查AI写的代码。」

写代码是软件工程里最有趣的部分——进入心流，构建架构，测试边界。很多工程师热爱这个过程。但审查别人的代码？尤其是AI写的代码？这是苦活。你要为每一行负责，因为如果它出问题，生产环境会崩。

这就是Codex现在要解决的问题。不是让工程师写得更快，而是让他们审查得更轻松。

Alexander的团队在开发一个代码审查功能。它不只是标注代码的问题，而是帮你建立信心——这段代码是对的。同时，他们在训练Codex自己验证代码。如果代理能自己跑测试，自己检查边界条件，自己修复bug，工程师就不用再逐行盯着看了。

更激进的实验是：让Codex成为自己训练流程的on-call工程师。

「训练推理模型时，有一堆图表需要人盯着，」Alexander说，「我们叫这个'babysitting'，因为训练很贵，必须有人随时发现问题。现在我们让Codex循环检查那些图表，判断训练是否正常，出问题时自动修复或者重启。」

这听起来像科幻小说。但它已经在内部测试了。Codex写代码管理自己的基础设施，审查自己的配置文件，监控自己的训练任务。OpenAI的工程师正在把自己从「写代码」和「盯着代码跑」这两件事里解放出来。

有个细节值得注意：Codex能连续工作24小时以上。这不是默认行为，但工程师们已经习惯了「让它跑一晚上」。为了支持这种超长任务，Codex开发了「compaction」功能——当上下文窗口快满时，模型会自动压缩历史记录，切换到新的上下文窗口，继续工作。这个功能横跨三层架构：模型层（理解compaction概念）、API层（提供compaction端点）、harness层（准备压缩payload）。

这就是Alexander说的「三层同时优化」。市面上的编程工具各有各的哲学：有人坚持用语义搜索，有人用专用API，Codex选择了最简单的——直接用shell。但为了安全，他们把shell包在沙箱里，然后针对这个沙箱环境训练模型。

「如果你想在所有工作方式里都表现好，你的模型会变得平庸，」Alexander说，「我们选了一条路，然后在这条路上做到极致。」

想想你上次买电钻的场景。你不是在买电钻，你是在买墙上那个洞。写代码也一样——代码不是目的，代码是实现某个功能的方式。

这就是为什么Alexander认为所有AI代理最终都会变成编程代理。

「模型要做事，就得操作电脑，」他说，「操作电脑有很多方式：黑进操作系统，用无障碍API，或者模拟点击。但最高效的方式是写代码。」

这个观点很反直觉。你会觉得「编程代理」是一个垂直领域，服务工程师。但在Alexander的框架里，编程是任何代理的底层能力——就像没人会问「你现在在用互联网吗」，大家只关心WiFi开没开。

代码的优势在于可组合。如果代理只会点击界面，它每次都要重新学习怎么操作某个软件。但如果代理会写代码，它可以导入别人写好的脚本，可以把自己的脚本分享给团队，可以在代码仓库里找到解决方案。

OpenAI内部已经有人用Codex做「编程相邻」的事情了。财务分析？写个Python脚本。数据清洗？写个shell命令。客服工单分析？写个API调用脚本。这些任务不需要专业工程师，但它们都受益于「会写代码的代理」。

Alexander甚至开玩笑说，未来的创业者可能会用一个手机App管理整个公司。每个产品决策都是竖屏短视频，代理提出想法，你左滑拒绝，右滑批准，长按语音反馈。「像TikTok遇上Tinder遇上Codex，」他笑着说，「当然我们不会做这个，但这是个有趣的思想实验。」

但Codex不适合所有团队。

如果你的公司有几十年的遗留系统，有复杂的权限管理，有严格的合规要求，让AI代理自主工作会很难。你得慢慢替换系统，或者给代理定制接口，这需要时间。

Alexander的预测是：明年，在全新技术栈上创业的团队会最先看到生产力的指数增长。五年内，大公司会逐步跟上。某个时刻，这种生产力增长会反馈到AI实验室本身，那就是AGI的临界点。

「现在的限制因素是什么？」他想了想，「人类打字速度，人类审查代码的速度。」

这是个很少有人提到的瓶颈。大家都在谈模型能力、训练数据、推理速度。但Alexander认为，真正卡住的是人类跟不上AI的节奏。你让Codex写100个PR，你审查得完吗？

这也是为什么Codex团队现在的重心不是「写更多代码」，而是「让代理学会自我验证」。当代理能自己跑测试、自己修复bug、自己判断代码质量，工程师才能真正从审查循环里解放出来。

Alexander最近买了辆特斯拉。他之前一直开老款跑车——因为他喜欢燃油引擎，也因为便宜。但特斯拉的FSD（完全自动驾驶）改变了他的看法。

「它做对了人机协作，」他说，「车在开，但你随时可以介入。加速？它听你的。调速度？转个旋钮。微调方向？轻轻打方向盘。你没有失去控制感，但你也没有在做所有的工作。」

这正是Codex想要的状态。代理在写代码，但你可以随时介入。你可以改提示，可以调参数，可以直接编辑代码。你仍然是船长，但你有了一个非常能干的大副。

故事到这里，其实还没有结束。还有一个问题没人问过Alexander：

当Codex真的能独立工作，能自己修bug，能自己做决策，工程师还剩下什么？

他的答案是：选择要解决的问题。

写代码正在变成「书法艺术」——依然美，依然值得学习，但不再是必需的生存技能。工程师的核心价值会回到最初的地方：判断什么值得做，为什么值得做，以及这么做会带来什么后果。

就像买电钻的人，真正需要的从来不是钻孔的技巧，而是知道该在哪面墙上打洞。

OpenAI Codex 产品负责人：3人28天上线 Sora App，重新定义 AI 编程队友与 AGI 生产力

金句精选