降噪 - AI精选内容平台

2026年初，你打开电脑写代码的方式可能是这样的，给AI下个指令，然后去泡杯咖啡。回来时代码已经写好，测试通过，PR提交完毕。如果你还在逐行敲代码，你可能正在用打字机时代的方式工作。

这不是科幻。

LangChain创始人Harrison Chase在最新访谈中透露，他团队的编程任务里，AI已经能独立工作数小时甚至一整天。关键词不是「辅助编程」，而是「长周期自主运行」。

Harrison是谁？2023年GPT-3刚火的时候，他就预见了AI Agent的机会，创建了LangChain——现在几乎所有AI应用开发者都在用的框架。18个月过去，他的团队从构建Agent框架进化到构建Agent Harness（代理工具箱），这个转变背后藏着一个更大的故事。

但他遇到了一个让所有开发者头疼的问题。

传统软件开发很清晰，你写的每一行代码都能预测结果。但AI Agent不同。它在循环中自主决策，你根本不知道第14步它会把什么内容塞进上下文。一个客户的Agent跑偏了，工程师抓狂，「给我看代码」没用了，因为逻辑藏在模型的几百万参数里。

这个困境Harrison称之为「上下文工程」。

他说这个词不是他发明的，但「它完美描述了我们在LangChain做的所有事情」。什么意思？传统编程是逻辑工程，AI时代变成了上下文工程——你不再控制每一步怎么做，而是控制AI每一步「看到什么」。

转折点出现在2024年6月。

Harrison注意到三个产品同时爆发，Claude Code、Deep Research、Manis，它们都在做长周期任务，都能自主运行超过一小时。他拆开这些系统，发现它们用的是同一个简单算法，让LLM在循环里跑，自己决策下一步。但真正的魔法在外围，那些关于「压缩上下文」「规划工具」「文件系统交互」的设计。

这些设计有个统一的名字。

上下文工程。

想理解上下文工程，得先看懂「长周期Agent到底在干什么」。

Harrison团队做了一个东西叫Deep Agents，这是个Harness（工具箱），不是Framework（框架）。区别在哪？框架是电池，给你基础能力，切换模型、调用工具。Harness是充电宝，自带电池还配了一堆你需要的线和插头。

Deep Agents默认给Agent配了一个「规划工具」。这很关键，因为长周期任务会撞到上下文窗口的天花板。Claude的窗口再大也是有限的，Agent跑了500轮对话，前面的内容怎么办？Harness会自动压缩。

怎么压缩？

这就是上下文工程的第一个核心技能。一种策略是总结，但把原始消息全扔进文件系统，AI需要时自己查。另一种策略是当工具返回了一大堆结果时，别全塞给模型，放文件系统里，让它按需查。

听起来简单，但魔鬼在细节里。

Harrison提到一个失败案例。他们的Harness支持「Sub Agent」（子代理），主Agent把任务分给子Agent，子Agent干完活说「看我上面的工作」，然后把这句话传回主Agent。主Agent懵了，因为它根本看不到子Agent的上面——那些内容不在它的上下文里。

这种bug在传统软件里不会出现。你写代码时知道每个函数的输入输出。但在Agent里，第14步的上下文取决于前13步的动态决策。你不可能提前知道。

所以Harrison说，「软件的真理在代码里，Agent的真理在Trace（追踪记录）里。」

Trace是什么？简单说就是Agent每一步做了什么、看到了什么、决策了什么的完整日志。LangSmith（LangChain的配套工具）的核心功能就是Trace。Harrison说，「人们从一开始就用Trace，不是为了debug，而是为了知道到底发生了什么。」

这在单次LLM调用里不重要，因为你知道prompt是什么。但在Agent里，Trace变成了「源代码」。

有人问他，Agent失败了怎么办？他的回答是，「给我发Trace。」以前是「给我看代码」，现在是「给我看Trace」。这个转变标志着整个开发范式的迁移。

更激进的是，Harrison团队开发了LangSmith MCP和CLI工具，让另一个AI Agent去读Trace，诊断问题，然后自动改代码。

Agent调试Agent。

他说，「这是我比强化学习更看好的方向。」

但上下文工程不止是压缩和Trace。

Harrison提到，很多顶尖的Coding Agent（编程代理）都是靠Harness胜出的。他举了个例子，在SWE-Bench 2这个编程基准测试里，Claude Code不在榜首。为什么？因为其他团队的Harness更懂模型的训练数据。

OpenAI的模型在Bash上训练得很重，所以如果你的Harness大量用Bash工具，性能会更好。Anthropic的模型在「显式文件编辑工具」上训练得更多，你的Harness就该配这种工具。

还有文件系统。Harrison说，「现在如果你在做长周期Agent，你必须给它文件系统。」为什么？因为文件系统是最灵活的上下文管理容器。压缩的原始消息、工具的返回结果、中间的草稿，全能存在里面，需要时Agent自己翻。

这不是说Agent一定要写代码。Harrison区分了「虚拟文件系统」和「真实文件系统」。虚拟的只是个存储空间，后端可能是数据库，Agent不能执行代码。真实的能让Agent跑脚本，做更复杂的事。

但有个大问题，Coding Agent等于General Agent吗？

Harrison停顿了一下，「我也不知道答案。」

他说，「今天的Coding Agent是为编程任务优化的，但通用Agent可能也是Coding Agent。」这句话有点绕，意思是，未来的通用Agent可能会写代码来解决所有问题——毕竟代码是让计算机干活的最直接方式。但现在，两者还不能划等号。

理论升华来了。

想想你去超市买电钻，你真的是在买电钻吗？不，你买的是墙上那个洞。PRD是电钻，原型是洞，代码也是电钻，Agent要的是结果。

上下文工程的本质是什么？是把「控制如何做」变成了「控制看到什么」。传统编程是因果链条，你写下if-else，结果确定。AI编程是概率场，你调整上下文，结果是模型在这个场中最可能走的路径。

这也解释了为什么年轻开发者更容易上手Agent开发。Harrison说，他们团队的应用AI工程师普遍偏年轻，「因为老开发者总想控制每一步逻辑，但Agent要的是放手。」

这不是说经验没用。恰恰相反，领域知识变得更值钱了。Harrison提到金融领域的Rogo公司，创始人懂金融流程，把这些知识翻译成Agent的Instruction（指令），这才是护城河。

老公司的数据和API也值钱。但光有数据没用，你得有Instruction告诉Agent怎么用。以前那些知识在人脑里，现在得写成自然语言指令。

两个字，不够。

但长周期Agent有局限性。

Harrison承认，Agent的可靠性还不到99%。所以它们适合「生成初稿」类任务，编程里你不直接push到生产环境，而是提PR让人审。AI客服不是一线回复，而是在人类接手前跑在后台，生成一份完整的背景报告。

还有场景限制。Harrison说他不太用ChatGPT的Memory功能，因为他每次问的都是一次性的问题，今天问代码明天问美食。但他的Email Agent有Memory，因为邮件处理是重复任务，Agent记得他的习惯，回复质量会越来越高。

他甚至透露，把旧的Email Agent迁移到新平台时，因为丢失了Memory，「它现在糟透了，我还没完全切换过去。」

UI也是个问题。长周期Agent跑一天，你不可能一直盯着。所以需要异步管理界面，像Jira看板那样批量管理多个Agent任务。但有时你又需要同步模式，Agent生成了研究报告，你想立刻给反馈，这时候Chat界面又回来了。

Harrison提到Anthropic的Claude Cowork，启动时你要选择它的工作目录，「这是你的环境。」这个设计很聪明，把Agent的工作空间具象化了，可以是Google Drive、Notion或者本地文件夹。你和Agent在这个空间里协作，状态可见。

访谈最后，主持人问，「你觉得每个Agent都会有代码沙盒吗？」

Harrison说，「文件系统我100%确定，代码执行我90%确定。」

至于浏览器操作？他摇头，「模型还不够好。」

他说这话的时候是2026年初。六个月后的今天，浏览器操作Agent会变成什么样？没人知道。但有一点确定，上下文工程会继续进化，因为那是让AI从工具变成同事的唯一道路。

Harrison提到一个细节。LangSmith Agent Builder（无代码构建Agent的工具）有个功能，你跟Agent说「你应该这样做而不是那样做」，它会自己去改配置文件。未来会加入「睡眠时计算」，Agent每天晚上自动回顾当天的Trace，更新自己的指令。

这不是自我改进吗？

他笑了，「是，但有人类在回路里。它改完了你要审查。」

门开了一条缝，但还没完全打开。

长周期 AI Agent 的上下文工程：LangChain 创始人 Harrison Chase 深度访谈

金句精选