139. 【Agent的综述】和苏煜聊Agent技术史、OpenClaw Moment、边界的消弭和社会的辐射
AI Coding

139. 【Agent的综述】和苏煜聊Agent技术史、OpenClaw Moment、边界的消弭和社会的辐射

2026年5月1日小宇宙
返回首页

金句精选

「让机器理解人类思维,不要让人像机器一样思考」

「Individual thought doesn't need language,but civilization needs language」

「这个世界不是一个世界,它是由几百万个小世界组成的」

「at the end of the day,大家想要的就是一个universal digital agent」

「Coding是digital world最根本性的building layer,所有东西都能用code来表达」

2025年春,GitHub上一个名叫OpenClaw的开源项目,像病毒一样疯狂蔓延。星标数量飙升,知乎、抖音、微博到处都是讲它的视频。甚至在北京五道口的早餐摊旁,都能听到有人低声讨论它怎么装、怎么用。有人形容这场技术浪潮有点像ChatGPT刚发布时,但又有本质上的不同。它已经不是程序员内圈的暗语了,而是渗透进了每条街巷。刚满七十的王大爷,拎着二手ThinkPad,跑去社区铁门口找人帮忙装OpenClaw,他的理由是:「我听说现在工作都得靠这个搞。」瞬间,好像每个人都在试图抓住什么,又害怕掉队。

而这场狂潮背后,有一个身影早已埋头钻研多年。他是苏煜,清华毕业后到美国读了博士,又在俄亥俄州立大学当过教授,现在是NeoCognition的创始人。OpenClaw的火爆让他感受到一种「边界消失」后的惊奇与不安。这不只是一波技术浪潮,更像是文明自省的「瞬时闪电」。

如果要解码OpenClaw现象,得先从更远处回头看Agent技术如何一步步走到今天。


上世纪五十年代,人工智能刚刚被赋予名字时,人们梦想着建造自己的「理性助手」。那时,Agent的雏形叫「专家系统」,就像给计算机塞进一本厚厚的法典。逻辑推理,手工录入规则,什么条件推导出什么结论——似乎只要把世界拆成一个个「如果……那么……」的逻辑分支,机器就能像人一样思考。

但事实证明,这种做法太理想主义。最大的瓶颈在于「知识获取」:工程师得一遍又一遍采访专家,靠人工把复杂世界的知识写成一阶谓词逻辑。十几个人三年只搞定一个小领域,开发成本高得离谱,知识更新也成了灾难,推理引擎永远慢半拍。到了80年代末,AI迎来「冬天」。苏煜说:「那时候模型能推理,就是'死脑筋',能做的事非常窄,像是被困在厚重边界里的囚徒。」

千禧年后,深度学习帷幕拉开。「神经Agent」成了舞台主角。强化学习加大规模神经网络,玩Atari,打围棋,AlphaGo横空出世。以为终于迈出了从「死记硬背」走向「自我学习」的关键一步——其实,它的自主性也受限甚多。内存只记得即时画面,决策只靠单步前向计算。要在一个游戏里赢,对Agent来说就是死磕上百万回合。资源消耗巨大,适应性很差,走出游戏之外立刻水土不服。苏煜说,这些神经Agent「就像是被训练坏的宠物」,只能在笼子里表演几套固定把式。

真正的突破,发生在2022年之后。

大型语言模型横空出世,成为Agent的「脚手架」。Agent开始懂语言,用语言推理,把世界经验「压缩」成一句句可供计算的指令。苏煜回忆,2022年初Chain of Thought论文首次证明,大模型能一步步推理复杂任务;同年10月,ReAct把「链式思考」扩展到面对真实世界环境。当年底,他的团队已开发出Mind2Web,让LLM驱动的Agent在浏览器里像人一样游走,自动完成任务。那时,ChatGPT还只是OpenAI内部的秘密,外人一无所知,但Mind2Web已悄悄搭起了基于语言的智能代理的骨架。

语言Agent的独特之处,在于「思考」能适应任务难度。任务越复杂,模型自动激发更多token,每段对话都在推进新的思考路径。苏煜说:「这就像人解题,越难的题需要越多步骤,LLM也是如此——它不再是一锤子买卖。」

2023年春,AutoGPT突然爆红。这个只有基础框架和目标控制的小玩意儿,硬是冲上GitHub历史Star增速榜首,很快飙到18万Star。所有人都意识到:「不再需要教计算机每一步怎么走,只需要告诉它目的,剩下由它自己琢磨。」这成为Agent技术史上的一个拐点。


OpenClaw的爆发,和ChatGPT当年的全球震撼,有一种「镜像」的巧合。

ChatGPT的「moment」发生在大模型技术成熟后,OpenAI把模型精心微调做成聊天机器人,向大众开放,每个人陡然发现自己之前对AI想象力的不足。而OpenClaw呢?则是在Agent底层技术已经完备之后,开发者们根本不收敛权限,像YOLO那样「把所有门全打开」,一开源,全民抢装试用,没有人想错过当下的Agent革命。

但与美国的冷静开发者圈子相比,OpenClaw在中国引发的是全民现象。苏煜仔细分析过,美国的热度主要限于技术圈,但在中国,「你会发现竟然是从街头到办公室,每个人都在问,OpenClaw我会用吗?」他甚至听说有老人拿着电脑去活动现场找人帮忙装OpenClaw。Eric Schmidt早就说过,中国在技术应用层极其迅速——只要AI产生的能力「值」到某一点,中国人马上把它用起来。而且,在高速竞争与焦虑下,多数人都觉得「这波不追就要被行业淘汰」。哪怕完全不懂,也要占个席位,以防世界突然变了样。

这背后有喜,也有忧。苏煜冷静地提醒:「浪潮太猛,技术进步远超替代工作产生新岗位的速度。要么每个人都成为Agent的指挥官,要么就慢慢被技术甩到身后。」


推动这场Agent边界消失的暗流,是Coding的深刻变革。

许多人以为电脑的进步是UI不断华丽,有更多漂亮的图标和交互,但在苏煜看来,这只是皮毛。真正的底层变革,是代码本身。「Coding是digital world最根本性的building layer,所有东西都能用code来表达。」过去,GUI与CLI之争持续了数十年——有人梦想命令行统治一切,但历史证明,只有人类极度需要、极度便利的adoption,才会带来真实的范式转移。

苏煜举了一个生动的前车之鉴:互联网之父Tim Berners-Lee想了二十多年,要给整个互联网赋予语义,推了二十几年,最终adoption极低。原因是人类社会不是靠「有道理」就能被推动的,需要强大的incentive。GUI的adoption有incentive,因为人需要它;MCP和CLI的全面取代则几乎不可能发生。

但Coding能做到。GUI本身就是code render出来的,可以用coding让它们等价,用coding统一所有的交互形式。最终方向是什么?苏煜说:「at the end of the day,大家想要的就是一个universal digital agent。」


这样消融边界的Agent,却有不小的软肋。

今天市面上绝大多数Agent,60%到70%的成功率,难以用于专业场景——慢、贵、不可靠。关键短板在哪?苏煜的答案:缺world model,「世界模型」。

而且,他眼里的world model绝不仅是机器人里的「地图」,还包括公司组织结构、工作流程、软件操作逻辑,以及人际互动的潜规则……苏煜说:「每个职业、每家公司,甚至每个软件,都是自己的一个小世界。」一个新员工从萌新变成专家,靠的就是不断修建属于自己的专业world model。公司明面上的org chart和背后真正起作用的权力网络,从来不是一张图能描述清的。

这个学习过程,和大脑新皮层(neocortex)的结构高度吻合。新皮层约占人脑70%,进化史却极短,直到哺乳动物才出现。它的秘密,被Jeff Hawkins在《千脑智能》中总结得很妙:新皮层由约15万个高度相似的皮质柱(cortical column)重复构成,每一个皮质柱都是独立的小世界学习器。靠结构和算法的极度重复,堆积出惊人的泛化与专精能力。

NeoCognition的名字正来源于此。「Neo」是新,「Cognition」是认知。苏煜想改变的,是如何让Agent自己搭建世界模型、实现持续自我学习。现有的RL后训练效率低,非参数化的md文件学习上限有限,都无法达到人的实际进步速度。他的方向是:通过学习world model来specialization,让每个domain都能训练出「专家级」的agent。

这不是要做覆盖一切的「超级Agent」,而是要让每个行业、每个职业都有自己的专家型拍档。苏煜说:「我们需要让每个有独特想法和洞察的人,都能真正把这转换成可以产生价值的agents。」NeoCognition刚成立半年,已完成4000万美元的种子轮融资。


故事最后,回到那句PhD答辩时的誓言。

苏煜说,他选择做语义解析,后来做Language Agent,本质上都是同一个原动力:「让机器理解人类思维,不要让人像机器一样思考。」

Chris Manning看到他的推文后高度赞同:「个人思考可以不需要语言,但文明一定需要语言。」——无论技术路线如何演变,这条逻辑链不会消失。语言,是文明最底层的「操作系统」。人类靠它积累知识、传承代际,开启了一条独特的进化快车道;AI靠它理解世界、压缩经验,在极短的时间内走完了人类数十年的探索历程。

世界,从来不是一个巨大的同质场域,而是由千万个小世界交织的网络。每个Agent,每个人,都在描摹自己的边界与能力。

黑夜里,屏幕前的代码敲击声,还在延展新的世界。