2026年初,你打开电脑写代码的方式可能是这样的,给AI下个指令,然后去泡杯咖啡。回来时代码已经写好,测试通过,PR提交完毕。如果你还在逐行敲代码,你可能正在用打字机时代的方式工作。
这不是科幻。
LangChain创始人Harrison Chase在最新访谈中透露,他团队的编程任务里,AI已经能独立工作数小时甚至一整天。关键词不是「辅助编程」,而是「长周期自主运行」。
Harrison是谁?2023年GPT-3刚火的时候,他就预见了AI Agent的机会,创建了LangChain——现在几乎所有AI应用开发者都在用的框架。18个月过去,他的团队从构建Agent框架进化到构建Agent Harness(代理工具箱),这个转变背后藏着一个更大的故事。
但他遇到了一个让所有开发者头疼的问题。
传统软件开发很清晰,你写的每一行代码都能预测结果。但AI Agent不同。它在循环中自主决策,你根本不知道第14步它会把什么内容塞进上下文。一个客户的Agent跑偏了,工程师抓狂,「给我看代码」没用了,因为逻辑藏在模型的几百万参数里。
这个困境Harrison称之为「上下文工程」。
他说这个词不是他发明的,但「它完美描述了我们在LangChain做的所有事情」。什么意思?传统编程是逻辑工程,AI时代变成了上下文工程——你不再控制每一步怎么做,而是控制AI每一步「看到什么」。
转折点出现在2024年6月。
Harrison注意到三个产品同时爆发,Claude Code、Deep Research、Manis,它们都在做长周期任务,都能自主运行超过一小时。他拆开这些系统,发现它们用的是同一个简单算法,让LLM在循环里跑,自己决策下一步。但真正的魔法在外围,那些关于「压缩上下文」「规划工具」「文件系统交互」的设计。
这些设计有个统一的名字。
上下文工程。
想理解上下文工程,得先看懂「长周期Agent到底在干什么」。
Harrison团队做了一个东西叫Deep Agents,这是个Harness(工具箱),不是Framework(框架)。区别在哪?框架是电池,给你基础能力,切换模型、调用工具。Harness是充电宝,自带电池还配了一堆你需要的线和插头。
Deep Agents默认给Agent配了一个「规划工具」。这很关键,因为长周期任务会撞到上下文窗口的天花板。Claude的窗口再大也是有限的,Agent跑了500轮对话,前面的内容怎么办?Harness会自动压缩。
怎么压缩?
这就是上下文工程的第一个核心技能。一种策略是总结,但把原始消息全扔进文件系统,AI需要时自己查。另一种策略是当工具返回了一大堆结果时,别全塞给模型,放文件系统里,让它按需查。
听起来简单,但魔鬼在细节里。
Harrison提到一个失败案例。他们的Harness支持「Sub Agent」(子代理),主Agent把任务分给子Agent,子Agent干完活说「看我上面的工作」,然后把这句话传回主Agent。主Agent懵了,因为它根本看不到子Agent的上面——那些内容不在它的上下文里。
这种bug在传统软件里不会出现。你写代码时知道每个函数的输入输出。但在Agent里,第14步的上下文取决于前13步的动态决策。你不可能提前知道。
所以Harrison说,「软件的真理在代码里,Agent的真理在Trace(追踪记录)里。」
Trace是什么?简单说就是Agent每一步做了什么、看到了什么、决策了什么的完整日志。LangSmith(LangChain的配套工具)的核心功能就是Trace。Harrison说,「人们从一开始就用Trace,不是为了debug,而是为了知道到底发生了什么。」
这在单次LLM调用里不重要,因为你知道prompt是什么。但在Agent里,Trace变成了「源代码」。
有人问他,Agent失败了怎么办?他的回答是,「给我发Trace。」以前是「给我看代码」,现在是「给我看Trace」。这个转变标志着整个开发范式的迁移。
更激进的是,Harrison团队开发了LangSmith MCP和CLI工具,让另一个AI Agent去读Trace,诊断问题,然后自动改代码。
Agent调试Agent。
他说,「这是我比强化学习更看好的方向。」
但上下文工程不止是压缩和Trace。
Harrison提到,很多顶尖的Coding Agent(编程代理)都是靠Harness胜出的。他举了个例子,在SWE-Bench 2这个编程基准测试里,Claude Code不在榜首。为什么?因为其他团队的Harness更懂模型的训练数据。
OpenAI的模型在Bash上训练得很重,所以如果你的Harness大量用Bash工具,性能会更好。Anthropic的模型在「显式文件编辑工具」上训练得更多,你的Harness就该配这种工具。
还有文件系统。Harrison说,「现在如果你在做长周期Agent,你必须给它文件系统。」为什么?因为文件系统是最灵活的上下文管理容器。压缩的原始消息、工具的返回结果、中间的草稿,全能存在里面,需要时Agent自己翻。
这不是说Agent一定要写代码。Harrison区分了「虚拟文件系统」和「真实文件系统」。虚拟的只是个存储空间,后端可能是数据库,Agent不能执行代码。真实的能让Agent跑脚本,做更复杂的事。
但有个大问题,Coding Agent等于General Agent吗?
Harrison停顿了一下,「我也不知道答案。」
他说,「今天的Coding Agent是为编程任务优化的,但通用Agent可能也是Coding Agent。」这句话有点绕,意思是,未来的通用Agent可能会写代码来解决所有问题——毕竟代码是让计算机干活的最直接方式。但现在,两者还不能划等号。
理论升华来了。
想想你去超市买电钻,你真的是在买电钻吗?不,你买的是墙上那个洞。PRD是电钻,原型是洞,代码也是电钻,Agent要的是结果。
上下文工程的本质是什么?是把「控制如何做」变成了「控制看到什么」。传统编程是因果链条,你写下if-else,结果确定。AI编程是概率场,你调整上下文,结果是模型在这个场中最可能走的路径。
这也解释了为什么年轻开发者更容易上手Agent开发。Harrison说,他们团队的应用AI工程师普遍偏年轻,「因为老开发者总想控制每一步逻辑,但Agent要的是放手。」
这不是说经验没用。恰恰相反,领域知识变得更值钱了。Harrison提到金融领域的Rogo公司,创始人懂金融流程,把这些知识翻译成Agent的Instruction(指令),这才是护城河。
老公司的数据和API也值钱。但光有数据没用,你得有Instruction告诉Agent怎么用。以前那些知识在人脑里,现在得写成自然语言指令。
两个字,不够。
但长周期Agent有局限性。
Harrison承认,Agent的可靠性还不到99%。所以它们适合「生成初稿」类任务,编程里你不直接push到生产环境,而是提PR让人审。AI客服不是一线回复,而是在人类接手前跑在后台,生成一份完整的背景报告。
还有场景限制。Harrison说他不太用ChatGPT的Memory功能,因为他每次问的都是一次性的问题,今天问代码明天问美食。但他的Email Agent有Memory,因为邮件处理是重复任务,Agent记得他的习惯,回复质量会越来越高。
他甚至透露,把旧的Email Agent迁移到新平台时,因为丢失了Memory,「它现在糟透了,我还没完全切换过去。」
UI也是个问题。长周期Agent跑一天,你不可能一直盯着。所以需要异步管理界面,像Jira看板那样批量管理多个Agent任务。但有时你又需要同步模式,Agent生成了研究报告,你想立刻给反馈,这时候Chat界面又回来了。
Harrison提到Anthropic的Claude Cowork,启动时你要选择它的工作目录,「这是你的环境。」这个设计很聪明,把Agent的工作空间具象化了,可以是Google Drive、Notion或者本地文件夹。你和Agent在这个空间里协作,状态可见。
访谈最后,主持人问,「你觉得每个Agent都会有代码沙盒吗?」
Harrison说,「文件系统我100%确定,代码执行我90%确定。」
至于浏览器操作?他摇头,「模型还不够好。」
他说这话的时候是2026年初。六个月后的今天,浏览器操作Agent会变成什么样?没人知道。但有一点确定,上下文工程会继续进化,因为那是让AI从工具变成同事的唯一道路。
Harrison提到一个细节。LangSmith Agent Builder(无代码构建Agent的工具)有个功能,你跟Agent说「你应该这样做而不是那样做」,它会自己去改配置文件。未来会加入「睡眠时计算」,Agent每天晚上自动回顾当天的Trace,更新自己的指令。
这不是自我改进吗?
他笑了,「是,但有人类在回路里。它改完了你要审查。」
门开了一条缝,但还没完全打开。
