Don't Build Agents, Build Skills Instead
AI CodingAI Organization

Don't Build Agents, Build Skills Instead

B
Barry Zhang, Mahesh Murag
2025年12月18日YouTube
返回首页

金句精选

所有场景下的代理,底层架构几乎一模一样。差异不在代码,在知识。

智力可以解决未知问题,但专业知识才能保证一致性和效率。

技能就是组织好的文件夹——这种刻意的简单性让任何人都能创建和使用。

技能不捕捉所有信息,只捕捉可在特定任务中使用的程序化知识。

代理是平台,技能是生态。平台的价值在于降低门槛,生态的价值在于共享增长。

Anthropic停止了构建新代理。不是因为技术遇到瓶颈,而是他们发现了一个更本质的问题。五周前,当他们发布Claude Code时,团队意识到一件事:所有场景下的代理,底层架构几乎一模一样。差异不在代码,在知识。

如果你现在还在为每个业务场景单独开发一个AI代理,你可能正在用组装生产线的方式做模块化工程。

Barry和Mahesh在Anthropic的最新演讲中透露,他们已经将重心从「构建代理」转向「构建技能」。这不是术语游戏,背后是整个AI代理架构的范式迁移。MCP成为连接标准后,Claude Agent SDK提供生产级代理框架,Anthropic发现:代理本身已经足够通用,真正的变量是领域专业知识。

他们用了一个很直接的比喻——你希望谁帮你报税?是智商300的数学天才Mahesh,还是经验丰富的税务专家Barry?答案显然是后者。智力可以解决未知问题,但专业知识才能保证一致性和效率。今天的AI代理就像Mahesh:聪明,但缺少真实工作场景中的前置上下文、最佳实践和领域经验。

问题的核心在这里。


Anthropic团队最初认为,不同领域的代理会长得很不一样——财务代理需要一套工具,研究代理需要另一套支架,每个用例都要单独开发。但在构建Claude Code之后,他们发现代理的底层能力惊人地通用。生成财务报告这件事,可以被拆解为:调用API提取数据、在文件系统中组织数据、用Python分析数据、将洞察综合为文件格式。全程都是代码。

这意味着代理的核心支架可以薄到只剩Bash和文件系统。问题是,通用能力解决不了领域问题。一个从零开始理解2025年税法的AI,永远比不上一个提前装载了税务专家经验的AI。

他们创造了「技能」这个概念。

技能不是什么复杂系统,就是组织好的文件夹。里面可以包含提示词、脚本、可执行文件、代码、资产,甚至二进制文件。这种刻意的简单性来自一个判断:任何人,无论是人类还是代理,只要有电脑,就应该能创建和使用技能。你可以用Git做版本控制,可以放进Google云端硬盘,可以打包后在团队内分享。

技能的第一个作用是解决工具问题。传统AI工具存在三个硬伤:说明文档写得模棱两可、模型遇到困难时无法修改工具本身、工具永远占用上下文窗口。代码解决了这些问题——它自带文档,可以被修改,可以存储在文件系统里,只在需要时加载。

Anthropic团队发现Claude反复编写相同的Python脚本来给幻灯片应用样式,于是让Claude把脚本保存到技能库里,作为「未来自己的工具」。现在只需运行脚本,效率和一致性都大幅提升。

但这只是起点。

技能真正的价值在渐进披露机制。运行时,模型只能看到技能的元数据,知道「我有这个能力」,但完整内容不会进入上下文窗口。只有当代理决定使用某个技能时,才会读取完整的指令文件和目录结构。这种设计让一个代理可以装载数百甚至上千个技能,而不会撑爆上下文。

这不是理论。五周内,技能生态已经增长到数千个。Anthropic将这些技能分成三类:基础技能、第三方技能和企业内部技能。

基础技能赋予代理新的通用能力。Anthropic自己构建了文档技能,让Claude能创建和编辑专业级Office文档。Cadence构建了科学研究技能,让Claude能做EHR数据分析,并使用常见的Python生物信息学库。

第三方技能来自生态系统合作伙伴。Browserbase为开源浏览器自动化工具Stagehand构建了技能,现在Claude可以更有效地导航网页。Notion发布了一系列技能,让Claude能在整个工作区做深度研究。

但最激动人心的是企业内部技能。

财富100强公司正在用技能教代理组织最佳实践,以及那些「奇特而独特的内部软件使用方式」。大型开发人员生产力团队在用技能部署Claude Code,并将代码风格规范、内部工作流程打包进去。服务数万名开发人员的团队,不再需要为每个场景开发定制代理,只需要为通用代理配备正确的技能库。

这里出现了一个反直觉的现象:非技术人员开始构建技能。财务、招聘、会计、法律领域的从业者,正在用技能扩展通用代理,让代理适配他们日常工作中的真实需求。Anthropic认为这是早期验证——技能让不做编码工作的人也能定制AI能力。


五周前发布技能后,Anthropic立刻推出了金融服务和生命科学领域的新产品。这些产品没有重新开发代理,只是给Claude配备了对应的MCP服务器和技能库。结果是,Claude在这些领域的专业人员面前,效率立刻提升。

这背后是一种新兴的通用代理架构。代理循环管理模型的内部上下文和令牌流动,运行时环境提供文件系统和代码读写能力,MCP服务器提供外部世界的工具和数据,技能库提供领域专业知识。今天,让代理进入新领域,可能只需要配备正确的MCP服务器和技能库。

这种架构的可扩展性在于:技能可以引用其他技能,可以明确依赖MCP服务器,可以声明环境中的包依赖。多个技能的组合性会让代理行为更复杂、更相关、更可预测。

Anthropic正在探索三个方向。第一是像对待软件一样对待技能——测试、评估、版本控制、依赖管理。第二是追踪技能演进和代理行为演进的清晰血缘关系。第三是共享和分发机制。

最后这一点最关键。


想象一个由组织内部的人和代理共同策划的、不断进化的能力知识库。你给代理反馈,它的技能会变好,你团队里所有人的代理也会变好。当有人第一次加入团队使用Claude时,它已经知道你的团队关心什么、如何最有效地完成工作。这个复合价值会扩展到组织之外——社区中其他人构建的技能会让你的代理更强大、更可靠。

这种愿景在Claude开始创建技能时变得更具体。Anthropic将技能设计为「迈向持续学习的具体步骤」。标准化格式提供了一个保证:Claude今天写下的任何技能,都可以被未来版本有效利用。学习变得可转移。技能不捕捉所有信息,只捕捉可在特定任务中使用的程序化知识。Claude可以立即获得新能力,根据需要进化,然后放弃过时的能力。

Anthropic的目标是,与你合作第30天的Claude,要比第一天的Claude好得多。今天,Claude已经可以用技能创建器技能为你创建技能。

Barry和Mahesh用计算机历史做了一个类比。模型像处理器,需要大量投资但本身作用有限。代理运行时像操作系统,协调进程、资源和数据,让处理器更有价值。但真正的价值来自应用层——数百万开发人员构建的软件,编码了领域专业知识和独特观点。

技能就是AI时代的应用层。


这个类比解释了为什么Anthropic停止构建代理。处理器和操作系统的价值在标准化,应用的价值在多样性。如果每个场景都要重新开发一个代理,就像每次要用电脑做新事情,都要重新设计一台电脑。通用代理+技能库的模式,让创造力发挥在正确的层级——不是重复造轮子,而是解决具体问题。

但这种模式有明确边界。技能适合那些可以被结构化、可复用、可迭代的知识。对于高度定制化、频繁变化、难以标准化的场景,单独开发代理可能仍然更高效。技能的价值在规模化和组合性,如果你的场景只需要一次性解决,技能的投入产出比并不高。

Anthropic团队在演讲最后说,是时候停止重建代理,转而构建技能了。

这句话背后的逻辑是:当底层能力趋于通用,差异化就从架构转向知识。代理是平台,技能是生态。平台的价值在于降低门槛,生态的价值在于共享增长。五周数千技能的增速,证明了这个判断。

问题是,你准备好把专业知识装进文件夹了吗?