「Terminal的形态天生适合Agent工作,因为所有东西都是基于时间的:输入文本、输出文本、记录日志、多任务并行。」Warp创始人Zach Lloyd说这话的时候,语气里带着一种「运气好到不敢信」的感觉。
5年前他创办Warp时,目标是重新设计Terminal这个「糟糕的产品」——难学、易错、鼠标不能用。2023年ChatGPT爆发后,他突然发现Terminal意外地成了AI时代最适合Agent工作的界面。而他的竞争对手们,那些从IDE起家的工具,现在都在往Terminal的方向靠。
如果你还觉得Terminal只是程序员用来敲命令的黑框框,你可能低估了它正在发生的变化。它正在变成「Agent的驾驶舱」——不是人类敲代码的地方,而是管理一群AI员工的控制台。
Zach Lloyd不是那种天生的Terminal高手。
他曾是Google的首席工程师,负责Google Docs的工程团队,做协作软件出身。他一直看着那些Terminal用法娴熟的同事「搞定一堆事情」,但他自己用得很糟。「我不是一个好的Terminal用户,」他直接承认,「但我看到了如果你会用它,它能有多强大——因为它在技术栈里的位置。」
这个「位置」很关键。Terminal不是一个上层应用,它是开发者和系统之间的直接通道。你可以调用任何工具、读取任何日志、控制任何进程。但代价是学习曲线陡峭,一个错误命令能删掉整个项目。
2020年Zarp成立时,他的想法是「让Terminal变得像Google Docs一样好用」。多人协作、分享命令、共享事件响应手册——这些都是他从Google Docs世界带过来的思路。商业模式也是这么设计的:单人版免费,团队版收费。
前一年半,他们只做一件事:重新设计Terminal的交互体验。输入怎么改?输出怎么显示?怎么让它更易用但不削弱原有的能力?
那时候还没有ChatGPT,没有Claude,没有人在谈论「Agentic开发」。
但2023年后,一切变了。
「Terminal现在反而更重要了,」Zach说,「讽刺的是,它成了Agent的首选形态。」
原因很简单:Agent需要的东西,Terminal天生就有。
第一,时间线结构。Terminal里的所有操作都是按时间顺序排列的,输入一条命令,输出一段结果,再输入下一条。这种线性日志结构完美匹配Agent的工作方式——它需要知道自己做了什么、结果是什么、接下来该做什么。
第二,文本输入输出。Agent不需要GUI,不需要拖拽、点击、选中这些操作。它只需要读文本、写文本。Terminal就是一个纯文本界面。
第三,多任务并行。你可以在Terminal里同时跑多个Agent,每个Agent开一个窗口,互不干扰。如果是在IDE里,这种并行管理会复杂很多。
Zach把Warp从「现代化Terminal」升级成了「Agent工作台」。现在Warp的定位是「一个内置Agent的Terminal」,或者更准确地说,「一个用Agent构建软件的工作台」。
关键转折点是他们发现:编程界面正在融合。
传统的Terminal和IDE界限分明——Terminal是用来和计算机对话的,IDE是用来手工编辑代码的。但现在Cursor(一个从IDE起家的工具)看起来越来越像Warp:主界面变成了聊天窗口,代码编辑变成了次要功能。而Warp也在加IDE功能:代码编辑器、代码审查、文件树。
「我们在Twitter上因为加了文件树被骂,因为那不是'纯Terminal'的东西,」Zach笑着说,「但如果你看最新版的Cursor,他们看起来很像我们。」
融合的方向是:主界面变成Prompting(提问)和Agent交互,手工编辑变成fallback(后备)接口。你先问Agent做事,不行了再自己手动改。
这就是Zach在2023年写的那篇文章里提出的「Ask and Adjust」范式:从手工编辑为主,变成「请求-调整」为主。
但重点不在这里。
Zach认为,接下来一年最大的变化是「云端Agent」的爆发。
什么是云端Agent?不是你坐在键盘前输入Prompt启动的Agent,而是被系统事件自动触发的Agent。
比如服务器崩溃了。比如用户提交了一堆bug报告。比如有人提交了安全漏洞。这些事件会自动触发一个Agent,它不在你的本地电脑上运行,而是在云端某个地方启动,读取日志、分析问题、写代码、提交PR。
「这意味着工作台会变成一个orchestration platform(编排平台),」Zach说,「不是管理你自己的Agent,而是管理你团队的所有Agent。」
他们正在开发的系统包括几层:
Agent SDK:开发者可以定义自己的Agent,设定触发条件、执行逻辑、权限边界。
Agent Hosting:如果你是小公司,不想自己搭建云端运行环境,Warp可以帮你托管Agent。「已经有一堆创业公司在做Agent托管服务了,这说明这是真实存在的需求。」
API层:Agent运行后,你怎么查看它的状态?怎么接管它?它的日志写到哪里?
管理层:所有这些Agent在干什么?它们处于什么状态?谁启动的?什么时候提交的PR?
这不是科幻场景。Warp团队已经在自己的Slack和Linear里跑这套系统了。有人在Slack里@Agent说「帮我改一下这个按钮位置」,Agent会在云端完成代码修改,然后把结果同步到某个开发者的本地Warp环境里,开发者检查一遍,没问题就合并。
「现在Agent可以提交PR,也可以在PR上留下第一轮审查意见,还可以在任务追踪系统里创建task,」Zach说,「这些都需要追踪、协调、和现有系统集成。这就是我们明年最大的产品重心。」
整个流程里,人类的角色从「写代码的人」变成了「检查Agent工作的人」。
更关键的是:Agent可以运行20到30分钟来完成一个真实的编程任务。不是改个按钮颜色,而是做一个中等复杂度的功能。Zach举例:他让Agent在Slack里加一个新的slash命令,Agent提交了一个300行的PR,基本正确。
但Agent仍然会跑偏、会进入死循环、会在没有人类引导的情况下浪费大量token。「如果让它自己跑几个小时,它需要非常明确的任务定义才行,」Zach说,「最好的结果永远是Agent被持续引导的时候:你先和它一起做计划,然后检查它的工作。」
想想你第一次学开车。
一开始你要记住每个步骤:踩离合、挂挡、松离合、踩油门。但熟练之后,你不再想这些步骤,你只想「我要去哪里」。方向盘、油门、刹车变成了你意图的延伸。
编程正在经历同样的转变。
以前程序员的工作是「把意图翻译成代码」——你脑子里有个想法,然后你得用Python、JavaScript、Rust把它精确地表达出来。代码就是意图的精确表达。
但现在你用英语告诉Agent你的意图,Agent把它翻译成代码。
表面上看这是效率提升。但Zach指出了一个反直觉的问题:「我们重新引入了歧义。」
代码是无歧义的。if x > 10 就是 if x > 10,不存在误解。但「如果X比较大」是有歧义的——多大算大?10?100?1000?
「英语是模糊的,」Zach说,「我们正在从一个人们用代码表达意图的世界,转向一个人们用英语表达意图、然后让模型生成代码的世界。这在某种意义上是一种倒退,但它效率高得多。」
这就是为什么他认为「编码很快会被解决,但真正的瓶颈是人类清晰表达意图的能力」。
未来的竞争力不是「写代码」,而是「说清楚你要什么」。这听起来简单,但实际上很难。你得理解业务逻辑、用户需求、技术约束,然后用一种Agent能理解的方式把它们描述出来。
但这不适合所有场景。
Zach明确区分了「专业开发」和「Vibe Coding」。Vibe Coding是指那些用Replit、Lovable这类工具快速做原型的场景——适合个人项目、passion project,但不适合构建「每天要用的那10个应用」。
「我每天用的应用——Google Docs、Spotify、Notion、Figma、Warp——都是难以构建的应用,都是由专业团队在企业环境里开发的,」他说,「我从没用过用no-code、low-code、vibe-code工具做出来的应用。」
专业开发场景下,你仍然需要手工编辑代码的能力。Agent可以生成代码,但你得能看懂、能审查、能修改。「手工编辑现在变成了fallback接口,或者说次要接口,但它还不能消失。」
另一个局限是成本。
Warp最初的定价模型是订阅制:每月固定价格,送固定数量的AI credits。他们假设大多数人只用20%的额度,所以可以按平均使用量定价。
结果人们用得越来越多,Warp开始亏钱。「我们在飞速增长,每5天增加100万美元收入,」Zach说,「但毛利是负的。」
他们面临选择:要么继续烧钱、去融更多钱、和Anthropic、OpenAI、Google打价格战;要么改成按消费计费,提高价格,看用户是否为产品价值买单。
他们选了后者。新定价是20美元基础月费+按token购买credits。「用户抱怨了很多,这确实很糟糕,」Zach坦率地说,「但我们负担不起继续补贴的成本。如果这是一场成本竞赛,我们必须在产品体验上做出更大差异化。」
这个决策的逻辑是:他们不能和模型提供商比成本,只能比产品体验。「对于专业开发者,20美元、40美元、80美元的差价是小钱,和他们获得的生产力提升相比不值一提。」
但这只适合那些关心体验、不敏感于成本的专业开发者。那些24小时跑Agent做原型的Vibe Coder不是他们的目标用户。
Zach不知道AI会不会超越最好的人类程序员。
但他知道一件事:「编码会被模型解决。」
他的意思不是AI会比人类更聪明,而是「编码」作为瓶颈会消失。真正的瓶颈会变成「表达意图」。
「我认为我们会到达一个点,你不需要最前沿的模型就能生成和你意图完美匹配的代码,」他说,「这就是为什么我不想做编码token的API生意——因为几年内这个市场会被商品化,你不能再收高溢价。这也是为什么Anthropic、OpenAI、Google都在疯狂冲刺应用层,因为API层有巨大的风险。」
在采访结尾,他提到了2023年写的那篇博客,当时他预测编程界面会从「手工编辑」转向「Ask and Adjust」。现在他说那篇文章「不算太差,预测基本准确」。
但有一个细节他没说对:他当时以为创意领域(比如生成图片)会最先摆脱「Adjust」环节,因为有一千种可接受的结果;而编程领域会保留手工编辑,因为只有一种正确答案。
现在看来,编程领域也在快速摆脱手工编辑。Agent生成的代码现在「100%能通过编译」,这在4到5个月前还是问题。下一步是让Agent能验证代码从用户视角是否工作正常——这需要browser use或computer use能力。
「如果Agent能不仅改代码,还能从用户视角验证改动,那RL就能让它生成行为正确的代码,而不仅仅是编译正确的代码,」Zach说。
那时候,「编码」这个技能可能真的会变成「书法艺术」——一种你可以欣赏、可以练习、但不再是日常必需的东西。
Warp在Twitter上因为加了文件树被骂的时候,Zach没删掉那个功能。
他知道Terminal正在变成别的什么东西。不是传统的Terminal,也不是传统的IDE,而是一个新物种:Agent的工作台。而那些从IDE起家的工具,现在也在往Terminal的方向走。
「我不知道最终形态会是什么,」他说,「但我确定它会更像Terminal,而不是IDE。」
他说完这句话的时候,语气里又有了那种「运气好到不敢信」的感觉。但这次,他已经知道这不只是运气了。
