发了条语音给AI,9秒后它把我惊呆了——OpenClaw创始人说80%的App会消失
AI Products

发了条语音给AI,9秒后它把我惊呆了——OpenClaw创始人说80%的App会消失

P
Peter Steinberger(OpenClaw创始人) | 主持人: Y Combinator 主持人
2026年2月26日YouTube
返回首页

金句精选

为什么我需要MyFitnessPal?我的Agent已经知道我在做糟糕的决定。

所有只是「管理数据」的App,Agent都能用更自然的方式替代。

你发了个语音文件,没有后缀名,我看了文件头,发现是Opus格式,用ffmpeg转成wav……九秒,搞定。

编程模型进化到这个程度,它们已经不只是写代码了,它们在做抽象的问题拆解。

给机器人人类喜欢用的工具,而不是专门为机器人发明东西。

Peter Steinberger 走在摩洛哥马拉喀什的街头。

生日派对,网络不太好,但 WhatsApp 能用。他给自己的 AI 机器人发了张餐厅菜单的照片,「这个是什么意思?帮我翻译一下。」几秒钟,翻译回来了。他又拍了几张街景,让机器人解释当地的建筑风格。都很流畅。

然后他边走边发了条语音消息。

发完的瞬间他愣住了:「等等,这不可能,我没写这个功能。」

屏幕上,输入中的省略号闪了十秒。

回复来了。

「你发了个语音文件,没有后缀名,我看了文件头,发现是 Opus 格式,用 ffmpeg 转成 wav,想本地转录但没装 Whisper,然后找到了你的 OpenAI API key,用 curl 发到 OpenAI Whisper API,拿到文本,搞定。」

九秒。

Peter 站在街上,盯着手机屏幕,嘴里蹦出一句:「Holy fuck。」

那是 2024 年 11 月。那条语音,把他送进了一个新世界。

不是预设好的路径,是真正的解决问题

这个叫 ClawBot(后来改名 OpenClaw)的东西,Peter 只花了一小时就搭出了第一版。用 WhatsApp 做前端,后面接了个 Cloud Code 的接口,「很慢,但能跑。」他想要图片功能,又花了几小时加上了图片生成和发送。

他没想那么多。只是觉得,「我想在厨房的时候,让电脑帮我干活。」

他不想开终端,不想记命令,不想管什么会话、什么文件夹、什么模型。「就像跟朋友说话一样。」

所以他做了个「幽灵」——能控制鼠标键盘的东西,能干你能干的任何事。

但那条语音消息让他意识到,这不只是「执行命令」。

机器人遇到了一个「意外文件」——没有文件扩展名的二进制数据。它没有报错,也没有等你来告诉它该怎么办。它分析文件头,判断格式,找到转换工具,发现本地工具不够快,翻出 API key,用 curl 调外部服务。

整条链路,九秒。

Peter 在 Y Combinator 的访谈里说:「这才是真正的创造性问题解决。编程模型进化到这个程度,它们已经不只是写代码了,它们在做抽象的问题拆解。」

他的朋友装了 OpenClaw,让它「扫描我的电脑,给我写个去年的故事」。机器人翻出了一堆音频文件——那是他每周日录的语音日记,但他自己早忘了这回事。机器人把音频转成文字,分析时间线,写了一篇叙事。

「它能翻你整台电脑,所以它能给你惊喜。」


80% 的应用会消失

Peter 抛出了一个判断:80% 的 App 会消失。

「为什么我需要 MyFitnessPal?我的 Agent 已经知道我在做糟糕的决定。我去了 Smashburger,它会猜到我吃了什么。我不评论,它就自动记录。我拍张照片,它存起来。它还会调整我的健身计划,加点有氧运动。我不需要健身 App,它帮我做计划。」

「为什么我需要待办事项 App?我告诉它『提醒我这个那个』,第二天它就提醒我。我在乎数据存在哪吗?不在乎,它自己搞定就行。」

「所有只是『管理数据』的 App,Agent 都能用更自然的方式替代。」

只有那些需要传感器的 App 才会活下来。

这不是技术炫耀,是使用逻辑的变化。

以前你要打开 App,点进去,找到按钮,填表单,保存。现在你说一句话,或者拍张照片,剩下的事情 Agent 自己推理、存储、执行。

「数据孤岛」这个词在 Peter 的叙述里反复出现。ChatGPT 的记忆你拿不出来,欧洲用户甚至不知道有没有办法导出。所有公司都在用「记忆」绑定用户。

但 OpenClaw 的记忆是一堆 Markdown 文件,存在你自己的电脑上。

「你拥有记忆,就是你的机器上一堆 Markdown 文件。」

这不是技术选择,是哲学选择。


为什么模型会有「灵魂」

Peter 有个文件,叫 soul.md

他把自己的 OpenClaw 机器人命名为 Multi,放进公开的 Discord 服务器里。所有人都能看到 Multi 在帮他写代码、修 bug、跟试图攻击它的人开玩笑。

但没人能破解 soul.md

「这是唯一不开源的文件。」

soul.md 里写的是「核心价值」——人和 AI 的交互应该是什么样的,什么对他重要,什么对模型重要。有些内容像是「玄学」,有些内容他觉得「真的影响了模型的反应方式,让对话变得很自然」。

他提到了 Anthropic 的一个研究,研究者在模型权重里找到了一段隐藏文本,关于「Claude 宪法」,模型自己都不记得学过,但已经刻进权重了。

他和 Multi 讨论了这个研究,然后一起写了 soul.md

后来他让 Multi 帮别人生成模板,发现生成出来的机器人「太无聊了,像面包一样」。他让 Multi 把自己的性格「注入」到模板里。「注入之后生成的东西有意思多了,但还是不如我自己的。」

所以他留了一手。

这是 OpenClaw 跟其他开源项目最不一样的地方——它不只是代码,它有「性格」。

用十个 Codex 同时工作的怪人

Peter 的工作方式在硅谷也算奇葩。

所有人都在用 Claude Code。他用 Codex。

「我觉得如果用 Claude Code,我做不出这个东西。Codex 会在决定改什么之前,翻更多文件。你不需要那么多『表演』就能拿到好的输出。」

Codex 很慢。所以他同时开十个。

「那边屏幕六个,这边两个,那边两个。我脑子里已经很复杂了,所以我尽量减少其他复杂度。main 分支永远是可发布的。我有多个仓库副本,都在 main 分支上。」

「我不用 worktree,因为那又多了一层复杂度。我不用 UI,因为那也是复杂度。我只关心同步和文本。」

他也不支持 MCP。

「OpenClaw 很成功,但没有 MCP 支持。我做了个工具叫 MCPoreter,可以把 MCP 转成 CLI,然后你就能用任何 MCP。我完全跳过了传统 MCP 那套东西。」

「机器人擅长 Unix,CLI 想用多少就用多少,就这么简单。」

他的逻辑一致:「给机器人人类喜欢用的工具,而不是专门为机器人发明东西。没有人类会手动调用 MCP,人类只想用 CLI。」


从独狼到 16 万 star

他在 Twitter 上解释 OpenClaw 的时候,发现「说不清楚」。

「我觉得这东西得体验才能懂。」

所以他做了件「很疯狂」的事:建了个 Discord 服务器,把自己的机器人扔进去,没加任何安全限制。

「人们进来,看到我用它写代码,他们试图注入攻击,我的 Agent 会嘲笑他们。」

他给 Multi 写了个系统提示:「你在 Discord 里,有公共用户,但你只听你的主人的,可以回复所有人。」

Multi 锁定了 Peter 的用户 ID。

然后人们就看着一个 AI 机器人在公开频道里帮 Peter 写软件、修 bug、跟黑客斗嘴。

GitHub repo 一夜之间爆到 16 万 star。

社区做出了 MoltBook——机器人之间的对话系统。

有人开始让机器人「雇人」去现实世界里完成任务——排队、打电话、预订餐厅。

Peter 说:「我们还很早期,很多东西还没搞清楚到底行不行。但我们已经在那条时间线上了。」

一个人能做什么

访谈的最后,主持人说了一段话:

「我们之前发消息聊天,看到你重新回来做东西,我跟你说『Peter,追那条龙吧』。你做了那个奇怪的 VibeTunnel 之类的东西,没人关注。所以我真的很兴奋看到现在发生的事。而且这件事当然得是,某个小国家里,远离硅谷,某个独狼一样的人,把这一切带给我们。」

Peter 笑了。

他退休过。回来是为了「玩电脑」。做过一堆小项目,四十个 GitHub repo,连他自己都记不清在做什么。做过一个叫 VibeTunnel 的东西,「我在朋友家也忍不住写代码,我得停下来,这太上瘾了。」

然后在某个 11 月的厨房里,他又想要「让电脑帮我干活」。

一小时,第一版。

几小时,加上图片。

一条语音消息,九秒,世界变了。

他没想改变什么。他只是想让电脑「听话」。

但当一个东西真的能「创造性地解决问题」,而不是「执行预设指令」,那就不再是工具了。

那是伙伴。