降噪 - AI精选内容平台

2025年春，GitHub上一个名叫OpenClaw的开源项目，像病毒一样疯狂蔓延。星标数量飙升，知乎、抖音、微博到处都是讲它的视频。甚至在北京五道口的早餐摊旁，都能听到有人低声讨论它怎么装、怎么用。有人形容这场技术浪潮有点像ChatGPT刚发布时，但又有本质上的不同。它已经不是程序员内圈的暗语了，而是渗透进了每条街巷。刚满七十的王大爷，拎着二手ThinkPad，跑去社区铁门口找人帮忙装OpenClaw，他的理由是：「我听说现在工作都得靠这个搞。」瞬间，好像每个人都在试图抓住什么，又害怕掉队。

而这场狂潮背后，有一个身影早已埋头钻研多年。他是苏煜，清华毕业后到美国读了博士，又在俄亥俄州立大学当过教授，现在是NeoCognition的创始人。OpenClaw的火爆让他感受到一种「边界消失」后的惊奇与不安。这不只是一波技术浪潮，更像是文明自省的「瞬时闪电」。

如果要解码OpenClaw现象，得先从更远处回头看Agent技术如何一步步走到今天。

上世纪五十年代，人工智能刚刚被赋予名字时，人们梦想着建造自己的「理性助手」。那时，Agent的雏形叫「专家系统」，就像给计算机塞进一本厚厚的法典。逻辑推理，手工录入规则，什么条件推导出什么结论——似乎只要把世界拆成一个个「如果……那么……」的逻辑分支，机器就能像人一样思考。

但事实证明，这种做法太理想主义。最大的瓶颈在于「知识获取」：工程师得一遍又一遍采访专家，靠人工把复杂世界的知识写成一阶谓词逻辑。十几个人三年只搞定一个小领域，开发成本高得离谱，知识更新也成了灾难，推理引擎永远慢半拍。到了80年代末，AI迎来「冬天」。苏煜说：「那时候模型能推理，就是'死脑筋'，能做的事非常窄，像是被困在厚重边界里的囚徒。」

千禧年后，深度学习帷幕拉开。「神经Agent」成了舞台主角。强化学习加大规模神经网络，玩Atari，打围棋，AlphaGo横空出世。以为终于迈出了从「死记硬背」走向「自我学习」的关键一步——其实，它的自主性也受限甚多。内存只记得即时画面，决策只靠单步前向计算。要在一个游戏里赢，对Agent来说就是死磕上百万回合。资源消耗巨大，适应性很差，走出游戏之外立刻水土不服。苏煜说，这些神经Agent「就像是被训练坏的宠物」，只能在笼子里表演几套固定把式。

真正的突破，发生在2022年之后。

大型语言模型横空出世，成为Agent的「脚手架」。Agent开始懂语言，用语言推理，把世界经验「压缩」成一句句可供计算的指令。苏煜回忆，2022年初Chain of Thought论文首次证明，大模型能一步步推理复杂任务；同年10月，ReAct把「链式思考」扩展到面对真实世界环境。当年底，他的团队已开发出Mind2Web，让LLM驱动的Agent在浏览器里像人一样游走，自动完成任务。那时，ChatGPT还只是OpenAI内部的秘密，外人一无所知，但Mind2Web已悄悄搭起了基于语言的智能代理的骨架。

语言Agent的独特之处，在于「思考」能适应任务难度。任务越复杂，模型自动激发更多token，每段对话都在推进新的思考路径。苏煜说：「这就像人解题，越难的题需要越多步骤，LLM也是如此——它不再是一锤子买卖。」

2023年春，AutoGPT突然爆红。这个只有基础框架和目标控制的小玩意儿，硬是冲上GitHub历史Star增速榜首，很快飙到18万Star。所有人都意识到：「不再需要教计算机每一步怎么走，只需要告诉它目的，剩下由它自己琢磨。」这成为Agent技术史上的一个拐点。

OpenClaw的爆发，和ChatGPT当年的全球震撼，有一种「镜像」的巧合。

ChatGPT的「moment」发生在大模型技术成熟后，OpenAI把模型精心微调做成聊天机器人，向大众开放，每个人陡然发现自己之前对AI想象力的不足。而OpenClaw呢？则是在Agent底层技术已经完备之后，开发者们根本不收敛权限，像YOLO那样「把所有门全打开」，一开源，全民抢装试用，没有人想错过当下的Agent革命。

但与美国的冷静开发者圈子相比，OpenClaw在中国引发的是全民现象。苏煜仔细分析过，美国的热度主要限于技术圈，但在中国，「你会发现竟然是从街头到办公室，每个人都在问，OpenClaw我会用吗？」他甚至听说有老人拿着电脑去活动现场找人帮忙装OpenClaw。Eric Schmidt早就说过，中国在技术应用层极其迅速——只要AI产生的能力「值」到某一点，中国人马上把它用起来。而且，在高速竞争与焦虑下，多数人都觉得「这波不追就要被行业淘汰」。哪怕完全不懂，也要占个席位，以防世界突然变了样。

这背后有喜，也有忧。苏煜冷静地提醒：「浪潮太猛，技术进步远超替代工作产生新岗位的速度。要么每个人都成为Agent的指挥官，要么就慢慢被技术甩到身后。」

推动这场Agent边界消失的暗流，是Coding的深刻变革。

许多人以为电脑的进步是UI不断华丽，有更多漂亮的图标和交互，但在苏煜看来，这只是皮毛。真正的底层变革，是代码本身。「Coding是digital world最根本性的building layer，所有东西都能用code来表达。」过去，GUI与CLI之争持续了数十年——有人梦想命令行统治一切，但历史证明，只有人类极度需要、极度便利的adoption，才会带来真实的范式转移。

苏煜举了一个生动的前车之鉴：互联网之父Tim Berners-Lee想了二十多年，要给整个互联网赋予语义，推了二十几年，最终adoption极低。原因是人类社会不是靠「有道理」就能被推动的，需要强大的incentive。GUI的adoption有incentive，因为人需要它；MCP和CLI的全面取代则几乎不可能发生。

但Coding能做到。GUI本身就是code render出来的，可以用coding让它们等价，用coding统一所有的交互形式。最终方向是什么？苏煜说：「at the end of the day，大家想要的就是一个universal digital agent。」

这样消融边界的Agent，却有不小的软肋。

今天市面上绝大多数Agent，60%到70%的成功率，难以用于专业场景——慢、贵、不可靠。关键短板在哪？苏煜的答案：缺world model，「世界模型」。

而且，他眼里的world model绝不仅是机器人里的「地图」，还包括公司组织结构、工作流程、软件操作逻辑，以及人际互动的潜规则……苏煜说：「每个职业、每家公司，甚至每个软件，都是自己的一个小世界。」一个新员工从萌新变成专家，靠的就是不断修建属于自己的专业world model。公司明面上的org chart和背后真正起作用的权力网络，从来不是一张图能描述清的。

这个学习过程，和大脑新皮层（neocortex）的结构高度吻合。新皮层约占人脑70%，进化史却极短，直到哺乳动物才出现。它的秘密，被Jeff Hawkins在《千脑智能》中总结得很妙：新皮层由约15万个高度相似的皮质柱（cortical column）重复构成，每一个皮质柱都是独立的小世界学习器。靠结构和算法的极度重复，堆积出惊人的泛化与专精能力。

NeoCognition的名字正来源于此。「Neo」是新，「Cognition」是认知。苏煜想改变的，是如何让Agent自己搭建世界模型、实现持续自我学习。现有的RL后训练效率低，非参数化的md文件学习上限有限，都无法达到人的实际进步速度。他的方向是：通过学习world model来specialization，让每个domain都能训练出「专家级」的agent。

这不是要做覆盖一切的「超级Agent」，而是要让每个行业、每个职业都有自己的专家型拍档。苏煜说：「我们需要让每个有独特想法和洞察的人，都能真正把这转换成可以产生价值的agents。」NeoCognition刚成立半年，已完成4000万美元的种子轮融资。

故事最后，回到那句PhD答辩时的誓言。

苏煜说，他选择做语义解析，后来做Language Agent，本质上都是同一个原动力：「让机器理解人类思维，不要让人像机器一样思考。」

Chris Manning看到他的推文后高度赞同：「个人思考可以不需要语言，但文明一定需要语言。」——无论技术路线如何演变，这条逻辑链不会消失。语言，是文明最底层的「操作系统」。人类靠它积累知识、传承代际，开启了一条独特的进化快车道；AI靠它理解世界、压缩经验，在极短的时间内走完了人类数十年的探索历程。

世界，从来不是一个巨大的同质场域，而是由千万个小世界交织的网络。每个Agent，每个人，都在描摹自己的边界与能力。

黑夜里，屏幕前的代码敲击声，还在延展新的世界。

139. 【Agent的综述】和苏煜聊Agent技术史、OpenClaw Moment、边界的消弭和社会的辐射

金句精选