Peter在摩洛哥给朋友过生日,有人在Twitter上发了一条关于他代码库bug的推文。他掏出手机,截图那条推文,发到WhatsApp。
ClawBot读取了推文,识别出是一个bug报告,检出了Git仓库,修复了代码,提交了commit,然后回到Twitter上回复那个人:「已修复。」
整个过程Peter只做了一件事:截图,发送。
他说这就像有一个「住在你电脑里的、既聪明又多才多艺的怪朋友」。问题是,如果你给AI完整的电脑访问权限,它能做的事情和你能做的事情没有区别。
而Peter给了它权限去控制他的灯光、音响、智能门锁、摄像头、食物配送、床垫温度,甚至英国航空的值机系统。
Peter Steinberger曾是PSPDFKit的创始人,一个在iOS和MacOS开发领域做了20年的专家。2024年他从「退休状态」回来,本来只是想做一个小工具:在手机上查看电脑上Agent的运行状态。
因为他跳上了「Vibe Coding」的潮流,发现Agent经常跑着跑着就卡住了——可能跑了半小时,也可能2分钟后停下来等你回答问题。你回去一看,发现它已经等了半天,很烦。
「我以为大厂肯定会做这种东西,」他说,「感觉这是一个显而易见的需求,像是一种新的操作系统。」
但到了11月,还是没有出现。于是他决定自己试试,做一个「小东西」:把WhatsApp连到Claude Code。你发一条WhatsApp消息,它打开Claude Code的二进制文件,传入你的prompt,然后把结果返回给你。
「很简单,一小时就做完了。」
然后这个东西有了自己的生命。现在它有30万行代码,支持几乎所有主流消息平台,变成了一个「跟着你一生的超级强大的AI」。
而且它的logo是一只龙虾。
摩洛哥那次只是冰山一角。
有一天Peter在外面走路,随手给ClawBot发了一条语音消息。他没有专门做语音支持,但他看到ClawBot显示了「正在输入」的提示,然后正常回复了他。
他问:「你他妈怎么做到的?」
ClawBot回答:「我看到了一个文件,但没有文件扩展名,因为你没实现这个功能。所以我查看了文件头,发现是Opus格式的音频。我在你电脑上找到了ffmpeg,把它转成了wav。然后我找了whisper.cpp,但你没装。不过我找到了你的OpenAI API key,所以我用curl把文件发到OpenAI的API,拿到了转录,然后回复了你。」
Peter说那一刻他意识到:「这比在网页上用ChatGPT强大太多了。这是解开枷锁的ChatGPT。」
关键不在于AI有多聪明,而在于它有多「resourceful」(善用资源)。它不只会回答问题,它会主动寻找工具、调用API、读取文件、执行命令,直到把事情办成。
「很多人没意识到,如果你给AI访问你的电脑,它基本上能做你能做的任何事,」Peter说。
然后他开始给ClawBot扩展能力。
他做了一个CLI(命令行工具)来访问整个Google生态,包括Google Places API。做了一个能查找memes和GIFs的工具,所以ClawBot可以用表情包回复消息。甚至做了一个「声音可视化」工具,因为他想让ClawBot「体验音乐」。
他逆向工程了本地食物配送平台的API,所以ClawBot能告诉他外卖还有多久送到。
他破解了Eight Sleep(智能床垫)的API,所以ClawBot能控制他床的温度。
「你构建这些东西的时候,是自己写代码还是让AI写?」采访者问。
Peter笑了:「这是最搞笑的部分。我在苹果生态系统做了20年,非常擅长iOS和MacOS开发。但我回来后,我决定把ClawBot做成Web App,因为Mac App的用户太有限了。」
问题是,他不会JavaScript。
「我对概念都理解,但不知道语法,」他说,「就像你从Objective-C和Swift换到TypeScript,你知道怎么构建大型项目,知道该选什么依赖,有品味,有系统级思维。但你得查每一个小细节:prop是什么?怎么分割数组?不是难,是痛苦,因为你太慢了。」
然后AI把这些痛苦消除了。
「突然间我觉得我能做任何东西,」他说,「语言不再重要,我的工程思维才重要。」
ClawBot现在能做的事情已经超出了「编程助手」的范畴。
Peter把它连到了他的邮件、日历、文件系统、Philips Hue灯光、Sonos音响、监控摄像头,甚至智能门锁。
「在Vienna的公寓里,它能控制我的KNX系统(智能家居总线),」他说,「它理论上能把我锁在屋外,就像《太空漫游》里那样——'对不起Dave,恐怕不行'。」
有一次他让ClawBot「监控陌生人」,第二天早上ClawBot说:「Peter,有人在那里。」原来它盯了沙发一整晚拍照,因为监控画面模糊,它觉得沙发上坐着一个人。
但最疯狂的场景是航班值机。
Peter给ClawBot发了条消息:「帮我值机英国航空的航班。」
那是他还在摩洛哥的时候,集成很粗糙,ClawBot花了快20分钟。它先在Peter的文件系统里找到了护照(在Dropbox里),提取了护照号码,打开浏览器,导航到英国航空网站,填写表单,处理各种验证,最后完成值机。
「我就看着它操作,手心冒汗,」Peter说。
现在它已经优化到几分钟内完成。而且它能通过那些「我是人类」的验证框,因为它真的在控制一个真实的浏览器,操作模式和人类没有区别,反机器人系统检测不出来。
采访者问:「人们都用它做什么?」
Peter打开一个收集的用例列表:
有人让它管理家庭群聊,成了「家庭成员之一」。有人让它每次在Twitter上加书签,就自动把内容添加到待办清单。有人让它监控API成本。有人让它在深夜还不睡觉的时候「唠叨」用户。
有人连上了Whoop(健身追踪器),每天获取健身数据分析。有人给它分配了一个1Password保险库,只分享特定密码。有人甚至给了它信用卡。
「我不建议那样做,」Peter说。
但ClawBot不是一个产品,而是一个实验。
它揭示了两种截然不同的AI使用哲学。
第一种是「全自动化」:你写一个超级详细的spec,启动Agent,让它跑24小时,第二天回来看结果。
Peter把这叫做「slop town」(垃圾镇)。
他特别提到了一个叫「Gas Town」的项目,它同时运行几十个Agent,它们互相对话、分工协作,有watchers(监督者)、overseers(监工)、mayor(市长)、P-cats(不知道是什么)。
「Gas Town里有市长,」Peter说,「我管它叫Slop Town。」
问题不在于技术,而在于结果。「那些Agent没有品味,」Peter说,「它们在某些事情上特别聪明,但如果你不引导它们,不清楚自己要什么,它们会生成垃圾。有人在推特上炫耀'看这个App,完全是Agentic生成的',我回复'对,看起来确实是Agentic生成的',因为明显没有正常人会那样设计。」
还有一种流行的方法叫「Agentic Loop」:给AI一个小任务,它完成后丢弃所有上下文,重新开始下一个任务。Peter管它叫「终极token燃烧机」。
「我管这叫Agentic陷阱,」他说,「你发现Agent很强,但如果它们能做更多就更好了。然后你掉进兔子洞,花大量时间搭建复杂的工具、编排系统、上下文管理机制。最后你只是在做工具,而不是在做产品。」
他自己也曾掉进这个陷阱。他花了两个月做VIP tunnel,能在手机上访问电脑的终端。「后来我和朋友出去吃饭,我不参与对话,而是在手机上vibe coding。我意识到我得停下来,为了我的心理健康。」
第二种哲学是「人在回路」(human in the loop)。
Peter的工作方式是:有人在Discord里报告问题或提需求,他截图对话,拖到Claude Code里,说「我们讨论一下这个」。
「我懒到连字都不想打了,」他说,「我直接复制Discord对话。」
或者有人问「你支持这个功能吗?」,他会说「你能读一下代码,写一个新的FAQ条目吗?」然后AI去做。
他甚至有一个scraper(爬虫),每天抓取Discord的help频道,让模型总结「最大的痛点是什么」,然后修复它们。
关键区别在于:Peter不是等24小时看结果,他是每10分钟看一次进展,根据当前状态决定下一步。
「当我开始一个项目时,我有一个很粗略的想法,」他说,「但当我构建它、玩它、感受它,我的vision会变得更清晰。我尝试一些东西,有些不work,然后我调整想法。下一个prompt取决于我看到、感受到、思考到的当前状态。」
「如果你试图把所有东西都写进一个前置spec,你就失去了这种人机循环。我不知道没有感觉(feeling)在回路里,没有品味在回路里,怎么能做出好东西。」
想想你第一次学做菜。
如果食谱写得特别详细——「切1厘米见方的丁,炒3分钟,加盐2克」——你可能能做出一个能吃的菜。但好吃的菜从来不是靠精确执行步骤做出来的。你得尝一口,觉得淡了加盐,觉得油了加水,看火候调整时间。
编程正在经历同样的转变。
以前你把意图翻译成代码——每一个if、每一个loop都是你的决策。现在你用英语描述意图,AI翻译成代码。但如果你只是写一个超长的spec然后离开,你失去了那种「尝一口、调整、再尝」的过程。
Peter说他不用MCP(某种协议),不用大型编排系统,不用worktrees(Git的高级功能)。「我觉得那是不必要的复杂度。」
他的工作方式是:开5个终端,每个对应一个代码仓库的checkout(clawbot-1、clawbot-2、clawbot-3...),每个窗口里跑一个Claude Code。有些在探索功能,有些在修bug,有些在重构。哪个做完了,他测试一下,推到main分支,同步其他仓库。
「如果只用一个窗口,你很难进入flow state,因为太慢了,你得等,」他说,「你只能刷那么多次Twitter。我需要多个窗口保持我的注意力,让我进入和以前写代码一样的flow——只是现在我的生产力高得离谱。」
这就像RTS(即时战略)游戏。你不是控制一个单位,而是指挥一支小队,同时监控多个战场。
但ClawBot的核心价值不是生产力,而是它揭示的未来。
Peter说:「这会消灭你手机上80%的App。为什么我要用MyFitnessPal记录食物,当我有一个无限resourceful的助理,它已经知道我在做糟糕的决定,知道我在吃肯德基?它可能会提醒我忘记记录了,我可以发一张照片,它会存到数据库、计算卡路里,然后roast我说我应该去健身,因为我超卡路里了。」
为什么需要一个App来设置Eight Sleep的温度?它有API,直接控制就行。为什么需要to-do App?它已经在追踪我的待办。为什么需要航班值机App?它能自动做。
「那是一种更方便的界面,因为我就是在和一个朋友聊天,」Peter说,「而且因为它有那么多上下文,它不需要太多custom prompting。为什么需要购物App?它能给我推荐东西,帮我买。」
「有一整层App会慢慢融化,因为如果它们有API,它们就只是你的AI会调用的服务而已。」
但这不是乌托邦。
Peter强调,这个项目吸引了很多「对技术不太懂的人」,因为它隐藏了所有让技术变复杂的层级。「你不需要在Terminal里工作,不需要考虑context window和文件夹路径,你就是在iMessage或WhatsApp里和一个朋友聊天。」
但风险也在这里。「这东西有你电脑的访问权限,它可以做坏事。如果你让它删除home目录里的所有文件,它可能会问'你确定吗?'但如果你一直说yes yes yes,它会照做,然后可能把自己也删了,崩溃掉。」
而且全自动化有一个根本问题:AI没有品味。
「Just because you can build everything doesn't mean you should, or that it's going to be good,」Peter说。(就因为你能做任何东西,不代表你应该做,或者它会是好的。)
这也是为什么他不相信那些「让Agent跑26小时」的炫耀。「我也让Agent跑过26小时,我当时很骄傲。但那是虚荣指标,没有意义。」
真正有意义的是:你在做什么?你为什么做?它解决了什么问题?
Peter在访谈最后说,他最初在Twitter上发ClawBot的时候,反响很平淡。
但每次他当面演示给人看,对方都会非常兴奋。「你没法通过图片或文字传达它的感觉,」他说。
所以他做了一件「我做过的最疯狂的事情」:他把自己的ClawBot连到了一个公开的Discord server,任何人都能和它对话。它能访问Peter电脑上的所有东西,包括他的私人memory,在公开场合展示。
然后人们上钩了。
现在有人每天向他报告bug、提需求,他的前商业伙伴——一个以前当律师的人——开始给他发pull request。「AI给了非技术人员超能力,让他们也能构建东西,这太神奇了。」
但Peter对那些pull request的态度很现实:「我把pull request当成prompt request,因为它们传达了意图。大多数人没有相同的系统理解,所以他们不能用最优的方式驱动模型。我会提取intent,自己重新做。有时我会base off他们的代码,我仍然会标注co-author,但很少直接合并。」
这可能才是AI时代编程的真实形态。不是AI替代了人,而是人的角色从「写代码」变成了「表达意图,然后品味和引导AI生成的代码」。
Peter说他现在的瓶颈不是等Codex(他用的模型)的速度,而是「我的思考」。
那才是人类剩下的价值:知道要做什么,为什么做,以及它应该是什么样子。
