2025年春,GitHub上一个名叫OpenClaw的开源项目,像病毒一样疯狂蔓延。星标数量飙升,知乎、抖音、微博到处都是讲它的视频。甚至在北京五道口的早餐摊旁,都能听到有人低声讨论它怎么装、怎么用。有人形容这场技术浪潮有点像ChatGPT刚发布时,但又有本质上的不同。它已经不是程序员内圈的暗语了,而是渗透进了每条街巷。刚满七十的王大爷,拎着二手ThinkPad,跑去社区铁门口找人帮忙装OpenClaw,他的理由是:「我听说现在工作都得靠这个搞。」瞬间,好像每个人都在试图抓住什么,又害怕掉队。
而这场狂潮背后,有一个身影早已埋头钻研多年。他是苏煜,清华毕业后到美国读了博士,又在俄亥俄州立大学当过教授,现在是NeoCognition的创始人。OpenClaw的火爆让他感受到一种「边界消失」后的惊奇与不安。这不只是一波技术浪潮,更像是文明自省的「瞬时闪电」。
如果要解码OpenClaw现象,得先从更远处回头看Agent技术如何一步步走到今天。
上世纪五十年代,人工智能刚刚被赋予名字时,人们梦想着建造自己的「理性助手」。那时,Agent的雏形叫「专家系统」,就像给计算机塞进一本厚厚的法典。逻辑推理,手工录入规则,什么条件推导出什么结论——似乎只要把世界拆成一个个「如果……那么……」的逻辑分支,机器就能像人一样思考。
但事实证明,这种做法太理想主义。最大的瓶颈在于「知识获取」:工程师得一遍又一遍采访专家,靠人工把复杂世界的知识写成一阶谓词逻辑。十几个人三年只搞定一个小领域,开发成本高得离谱,知识更新也成了灾难,推理引擎永远慢半拍。到了80年代末,AI迎来「冬天」。苏煜说:「那时候模型能推理,就是'死脑筋',能做的事非常窄,像是被困在厚重边界里的囚徒。」
千禧年后,深度学习帷幕拉开。「神经Agent」成了舞台主角。强化学习加大规模神经网络,玩Atari,打围棋,AlphaGo横空出世。以为终于迈出了从「死记硬背」走向「自我学习」的关键一步——其实,它的自主性也受限甚多。内存只记得即时画面,决策只靠单步前向计算。要在一个游戏里赢,对Agent来说就是死磕上百万回合。资源消耗巨大,适应性很差,走出游戏之外立刻水土不服。苏煜说,这些神经Agent「就像是被训练坏的宠物」,只能在笼子里表演几套固定把式。
真正的突破,发生在2022年之后。
大型语言模型横空出世,成为Agent的「脚手架」。Agent开始懂语言,用语言推理,把世界经验「压缩」成一句句可供计算的指令。苏煜回忆,2022年初Chain of Thought论文首次证明,大模型能一步步推理复杂任务;同年10月,ReAct把「链式思考」扩展到面对真实世界环境。当年底,他的团队已开发出Mind2Web,让LLM驱动的Agent在浏览器里像人一样游走,自动完成任务。那时,ChatGPT还只是OpenAI内部的秘密,外人一无所知,但Mind2Web已悄悄搭起了基于语言的智能代理的骨架。
语言Agent的独特之处,在于「思考」能适应任务难度。任务越复杂,模型自动激发更多token,每段对话都在推进新的思考路径。苏煜说:「这就像人解题,越难的题需要越多步骤,LLM也是如此——它不再是一锤子买卖。」
2023年春,AutoGPT突然爆红。这个只有基础框架和目标控制的小玩意儿,硬是冲上GitHub历史Star增速榜首,很快飙到18万Star。所有人都意识到:「不再需要教计算机每一步怎么走,只需要告诉它目的,剩下由它自己琢磨。」这成为Agent技术史上的一个拐点。
OpenClaw的爆发,和ChatGPT当年的全球震撼,有一种「镜像」的巧合。
ChatGPT的「moment」发生在大模型技术成熟后,OpenAI把模型精心微调做成聊天机器人,向大众开放,每个人陡然发现自己之前对AI想象力的不足。而OpenClaw呢?则是在Agent底层技术已经完备之后,开发者们根本不收敛权限,像YOLO那样「把所有门全打开」,一开源,全民抢装试用,没有人想错过当下的Agent革命。
但与美国的冷静开发者圈子相比,OpenClaw在中国引发的是全民现象。苏煜仔细分析过,美国的热度主要限于技术圈,但在中国,「你会发现竟然是从街头到办公室,每个人都在问,OpenClaw我会用吗?」他甚至听说有老人拿着电脑去活动现场找人帮忙装OpenClaw。Eric Schmidt早就说过,中国在技术应用层极其迅速——只要AI产生的能力「值」到某一点,中国人马上把它用起来。而且,在高速竞争与焦虑下,多数人都觉得「这波不追就要被行业淘汰」。哪怕完全不懂,也要占个席位,以防世界突然变了样。
这背后有喜,也有忧。苏煜冷静地提醒:「浪潮太猛,技术进步远超替代工作产生新岗位的速度。要么每个人都成为Agent的指挥官,要么就慢慢被技术甩到身后。」
推动这场Agent边界消失的暗流,是Coding的深刻变革。
许多人以为电脑的进步是UI不断华丽,有更多漂亮的图标和交互,但在苏煜看来,这只是皮毛。真正的底层变革,是代码本身。「Coding是digital world最根本性的building layer,所有东西都能用code来表达。」过去,GUI与CLI之争持续了数十年——有人梦想命令行统治一切,但历史证明,只有人类极度需要、极度便利的adoption,才会带来真实的范式转移。
苏煜举了一个生动的前车之鉴:互联网之父Tim Berners-Lee想了二十多年,要给整个互联网赋予语义,推了二十几年,最终adoption极低。原因是人类社会不是靠「有道理」就能被推动的,需要强大的incentive。GUI的adoption有incentive,因为人需要它;MCP和CLI的全面取代则几乎不可能发生。
但Coding能做到。GUI本身就是code render出来的,可以用coding让它们等价,用coding统一所有的交互形式。最终方向是什么?苏煜说:「at the end of the day,大家想要的就是一个universal digital agent。」
这样消融边界的Agent,却有不小的软肋。
今天市面上绝大多数Agent,60%到70%的成功率,难以用于专业场景——慢、贵、不可靠。关键短板在哪?苏煜的答案:缺world model,「世界模型」。
而且,他眼里的world model绝不仅是机器人里的「地图」,还包括公司组织结构、工作流程、软件操作逻辑,以及人际互动的潜规则……苏煜说:「每个职业、每家公司,甚至每个软件,都是自己的一个小世界。」一个新员工从萌新变成专家,靠的就是不断修建属于自己的专业world model。公司明面上的org chart和背后真正起作用的权力网络,从来不是一张图能描述清的。
这个学习过程,和大脑新皮层(neocortex)的结构高度吻合。新皮层约占人脑70%,进化史却极短,直到哺乳动物才出现。它的秘密,被Jeff Hawkins在《千脑智能》中总结得很妙:新皮层由约15万个高度相似的皮质柱(cortical column)重复构成,每一个皮质柱都是独立的小世界学习器。靠结构和算法的极度重复,堆积出惊人的泛化与专精能力。
NeoCognition的名字正来源于此。「Neo」是新,「Cognition」是认知。苏煜想改变的,是如何让Agent自己搭建世界模型、实现持续自我学习。现有的RL后训练效率低,非参数化的md文件学习上限有限,都无法达到人的实际进步速度。他的方向是:通过学习world model来specialization,让每个domain都能训练出「专家级」的agent。
这不是要做覆盖一切的「超级Agent」,而是要让每个行业、每个职业都有自己的专家型拍档。苏煜说:「我们需要让每个有独特想法和洞察的人,都能真正把这转换成可以产生价值的agents。」NeoCognition刚成立半年,已完成4000万美元的种子轮融资。
故事最后,回到那句PhD答辩时的誓言。
苏煜说,他选择做语义解析,后来做Language Agent,本质上都是同一个原动力:「让机器理解人类思维,不要让人像机器一样思考。」
Chris Manning看到他的推文后高度赞同:「个人思考可以不需要语言,但文明一定需要语言。」——无论技术路线如何演变,这条逻辑链不会消失。语言,是文明最底层的「操作系统」。人类靠它积累知识、传承代际,开启了一条独特的进化快车道;AI靠它理解世界、压缩经验,在极短的时间内走完了人类数十年的探索历程。
世界,从来不是一个巨大的同质场域,而是由千万个小世界交织的网络。每个Agent,每个人,都在描摹自己的边界与能力。
黑夜里,屏幕前的代码敲击声,还在延展新的世界。