3人,18天,一个全新的Android应用从零到上线。再用10天打磨,第28天推向公众。这是OpenAI Sora团队用Codex创造的记录。
如果你还在逐行敲代码,你可能正在用打字机时代的方式工作。
Alexander Embaricos,OpenAI Codex产品负责人,在进入OpenAI之前已经创业五年。但他坦诚地说,那时候对「快」的理解太天真了。每个创业者都觉得自己的公司很快,人才标准很高,野心很大。直到他真正进入OpenAI,才重新理解了这些词的含义。
Codex现在每周服务数万亿Token,是OpenAI使用量最大的编程模型。自去年8月GPT-5发布以来,增长了20倍。但Alexander记得,在增长爆发之前,他们犯过一个错误——太相信内部测试的信号了。
「在OpenAI内部,Codex Cloud(云端版本)非常受欢迎,」Alexander说,「我们每天训练推理模型,习惯了异步工作方式。给Codex写个任务描述,让它在云端跑几个小时,回来看结果。这对我们来说很自然。」
问题出在这里。
OpenAI的工程师生活在未来。他们用AI训练AI,用代理管理代理,甚至让Codex审查自己的训练代码,抓到过关键的配置错误。内部狗粮测试的信号是:Codex Cloud很好用。
但市场的真实反馈是:太难上手了。
「你得先配置云端环境,给模型设置工具权限,学会怎么写任务提示,」Alexander解释,「这就像雇了个远程队友,但你永远不能跟他打电话,只能通过异步消息沟通。对某些团队有效,但大多数人第一次用会卡住。」
转折点是他们决定「回到现在」。
Codex的第二版不再活在云端,而是直接装进工程师的IDE和终端。它在你的电脑上,在沙箱里运行,有权限访问你的依赖库。需要运行命令?它自己跑。命令在沙箱里不支持?它会问你。
这个决策的底层逻辑是「队友入职模型」。
想象你雇了个新人,给他一台全新的笔记本,没装任何软件,没有任何服务的密码。他能干什么?什么都干不了。但如果你跟他并肩工作,他需要某个权限时你随手给他,需要某个工具时你帮他装上,三个月后,他就能独立接任务了。
Codex的本地版本做的就是这件事。它先在你身边「实习」,看你怎么工作,学会你的工具链,记住你的配置习惯。等它攒够了上下文,你就可以把它「升职」,让它独立去云端跑长任务。
这个设计直接引爆了增长。从8月到现在,Codex用户增长20倍,成为OpenAI API中使用量最大的编程模型。工程师不需要学新的工作方式,只需要装个插件,Codex就开始在他们的工作流里提供帮助。
但Alexander很清楚,写代码从来不是终点。
「现在工程师最大的痛苦是什么?」他停顿了一下,「审查AI写的代码。」
写代码是软件工程里最有趣的部分——进入心流,构建架构,测试边界。很多工程师热爱这个过程。但审查别人的代码?尤其是AI写的代码?这是苦活。你要为每一行负责,因为如果它出问题,生产环境会崩。
这就是Codex现在要解决的问题。不是让工程师写得更快,而是让他们审查得更轻松。
Alexander的团队在开发一个代码审查功能。它不只是标注代码的问题,而是帮你建立信心——这段代码是对的。同时,他们在训练Codex自己验证代码。如果代理能自己跑测试,自己检查边界条件,自己修复bug,工程师就不用再逐行盯着看了。
更激进的实验是:让Codex成为自己训练流程的on-call工程师。
「训练推理模型时,有一堆图表需要人盯着,」Alexander说,「我们叫这个'babysitting',因为训练很贵,必须有人随时发现问题。现在我们让Codex循环检查那些图表,判断训练是否正常,出问题时自动修复或者重启。」
这听起来像科幻小说。但它已经在内部测试了。Codex写代码管理自己的基础设施,审查自己的配置文件,监控自己的训练任务。OpenAI的工程师正在把自己从「写代码」和「盯着代码跑」这两件事里解放出来。
有个细节值得注意:Codex能连续工作24小时以上。这不是默认行为,但工程师们已经习惯了「让它跑一晚上」。为了支持这种超长任务,Codex开发了「compaction」功能——当上下文窗口快满时,模型会自动压缩历史记录,切换到新的上下文窗口,继续工作。这个功能横跨三层架构:模型层(理解compaction概念)、API层(提供compaction端点)、harness层(准备压缩payload)。
这就是Alexander说的「三层同时优化」。市面上的编程工具各有各的哲学:有人坚持用语义搜索,有人用专用API,Codex选择了最简单的——直接用shell。但为了安全,他们把shell包在沙箱里,然后针对这个沙箱环境训练模型。
「如果你想在所有工作方式里都表现好,你的模型会变得平庸,」Alexander说,「我们选了一条路,然后在这条路上做到极致。」
想想你上次买电钻的场景。你不是在买电钻,你是在买墙上那个洞。写代码也一样——代码不是目的,代码是实现某个功能的方式。
这就是为什么Alexander认为所有AI代理最终都会变成编程代理。
「模型要做事,就得操作电脑,」他说,「操作电脑有很多方式:黑进操作系统,用无障碍API,或者模拟点击。但最高效的方式是写代码。」
这个观点很反直觉。你会觉得「编程代理」是一个垂直领域,服务工程师。但在Alexander的框架里,编程是任何代理的底层能力——就像没人会问「你现在在用互联网吗」,大家只关心WiFi开没开。
代码的优势在于可组合。如果代理只会点击界面,它每次都要重新学习怎么操作某个软件。但如果代理会写代码,它可以导入别人写好的脚本,可以把自己的脚本分享给团队,可以在代码仓库里找到解决方案。
OpenAI内部已经有人用Codex做「编程相邻」的事情了。财务分析?写个Python脚本。数据清洗?写个shell命令。客服工单分析?写个API调用脚本。这些任务不需要专业工程师,但它们都受益于「会写代码的代理」。
Alexander甚至开玩笑说,未来的创业者可能会用一个手机App管理整个公司。每个产品决策都是竖屏短视频,代理提出想法,你左滑拒绝,右滑批准,长按语音反馈。「像TikTok遇上Tinder遇上Codex,」他笑着说,「当然我们不会做这个,但这是个有趣的思想实验。」
但Codex不适合所有团队。
如果你的公司有几十年的遗留系统,有复杂的权限管理,有严格的合规要求,让AI代理自主工作会很难。你得慢慢替换系统,或者给代理定制接口,这需要时间。
Alexander的预测是:明年,在全新技术栈上创业的团队会最先看到生产力的指数增长。五年内,大公司会逐步跟上。某个时刻,这种生产力增长会反馈到AI实验室本身,那就是AGI的临界点。
「现在的限制因素是什么?」他想了想,「人类打字速度,人类审查代码的速度。」
这是个很少有人提到的瓶颈。大家都在谈模型能力、训练数据、推理速度。但Alexander认为,真正卡住的是人类跟不上AI的节奏。你让Codex写100个PR,你审查得完吗?
这也是为什么Codex团队现在的重心不是「写更多代码」,而是「让代理学会自我验证」。当代理能自己跑测试、自己修复bug、自己判断代码质量,工程师才能真正从审查循环里解放出来。
Alexander最近买了辆特斯拉。他之前一直开老款跑车——因为他喜欢燃油引擎,也因为便宜。但特斯拉的FSD(完全自动驾驶)改变了他的看法。
「它做对了人机协作,」他说,「车在开,但你随时可以介入。加速?它听你的。调速度?转个旋钮。微调方向?轻轻打方向盘。你没有失去控制感,但你也没有在做所有的工作。」
这正是Codex想要的状态。代理在写代码,但你可以随时介入。你可以改提示,可以调参数,可以直接编辑代码。你仍然是船长,但你有了一个非常能干的大副。
故事到这里,其实还没有结束。还有一个问题没人问过Alexander:
当Codex真的能独立工作,能自己修bug,能自己做决策,工程师还剩下什么?
他的答案是:选择要解决的问题。
写代码正在变成「书法艺术」——依然美,依然值得学习,但不再是必需的生存技能。工程师的核心价值会回到最初的地方:判断什么值得做,为什么值得做,以及这么做会带来什么后果。
就像买电钻的人,真正需要的从来不是钻孔的技巧,而是知道该在哪面墙上打洞。