降噪 - AI精选内容平台

八个月前，Summit还在手写SQL调试数据。现在，AI已经可以完成从生成初始查询、到构建复杂分析、甚至自动监控数据趋势的全流程。如果你还在每周五手动检查四五个仪表盘，试图从数字波动中找出异常信号——你可能正在用上个时代的方式，做这个时代的工作。

问题不在于你不够努力。问题在于，Claude已经可以24小时不间断阅读那些仪表盘，并且永远不会觉得厌倦。

Summit是Brex的数据负责人，也是这场变革的见证者。他每天面对的是真实企业级数据场景：成千上万张表、复杂的业务逻辑、以及那些总是在周一早上突然变红的监控指标。他的办公桌上永远开着Snowflake和Slack，因为「数据异常」和「系统故障」的区别，往往只能从工程师在凌晨三点发的一句话里读出来。

他说过一句很实在的话：「我建过太多仪表盘，最后都被人忽略了。但Claude不会。它永远会读。」

这不是传统的数据分析困境。Summit面对的问题更微妙：当一个指标在周一早上突然下跌15%，你需要同时做三件事——检查数据管道是否故障、翻阅Slack里的事故报告、回溯近期产品变更记录。传统BI工具只能告诉你「数字变了」，但无法告诉你「为什么变」。

更致命的是上下文碎片化。数据分析师的大脑需要同时加载：数据库schema、业务术语映射、历史异常案例、以及那些只存在于老员工记忆里的「坑」。一个新人可能要花三个月才能建立起这套认知网络。

而Summit的团队正在经历另一种痛苦：产品经理们开始自己跑查询。这听起来是好事，但现实是——他们会写出那种让数据库瞬间卡死的join语句，或者用错字段导致整个分析方向偏离。你不能阻止他们，但也不能给他们无限权限。

这个矛盾在2024年底找到了出口。

转折发生在Summit决定用Claude Code搭建第一个数据MCP（Model Context Protocol）的那天。他没有选择从零开始写查询，而是直接去Snowflake里翻历史记录——那些已经被反复验证、每天都在跑的SQL语句。

他挑了三条查询：一条按行业和阶段统计创业公司融资趋势，一条分析投资机构活跃度，还有一条计算「创业生态系统健康分数」——这是一个复合指标，涉及多表关联和时间序列计算。

「不需要写完美的查询，」Summit说，「你只需要给Claude展示三种模式：基础查询、带join的查询、以及一个真实的分析案例。剩下的，它会自己推断。」

这个过程比想象中更像是在「训练」一个数据分析师的直觉。

第一步是建立数据语境。Summit没有直接扔三条SQL给Claude，而是先解释了业务背景：「这个数据集追踪创业公司融资轮次，包含投资人、交易金额和公司详情。我们需要监控哪些客户刚拿到新融资，这样销售团队可以及时跟进。」

这段话看起来像废话，但它给了Claude一个关键信号：这不是纯技术任务，而是要解决商业问题。后来当产品经理问「哪些AI编程工具最有势头」时，Claude没有去查Wikipedia，而是直接从融资数据里提取了Cursor、Replit和Windsurf的最新融资记录和增长曲线。

第二步是定义查询边界。这是最容易被忽略但最关键的一步。Summit在MCP配置里写死了两条铁律：任何join操作必须加limit 50；查询超过3分钟自动中断并重写。

为什么？因为AI不知道「10万行数据会撑爆上下文窗口」。它会老实地把整张表读进来，然后你的会话就卡死了。

真正有意思的是第三条指令：「记住，你刚才查询的结果加了limit，那不是完整数据。如果需要统计总量，必须重新写聚合查询。」这是在教Claude一种数据分析师才有的警觉性——永远不要忘记自己看到的只是样本。

两个字：谨慎。

第三步是语义上下文的「瘦身」。Brex的客户数据表里有8种客户分群方式——按行业、规模、地域、生命周期阶段等等。理论上，分析师应该根据具体问题选择合适的维度。

但Summit发现，当你把8个维度都塞给Claude时，它会在每次分析中随机挑一个，导致结果不可复现。解决方法是残酷的：一个MCP只保留一种分群逻辑。「你可能会错过一些分析角度，但至少你得到的答案是稳定的。」

这里有个违反直觉的发现：更多上下文不等于更好的结果。就像给一个实习生太多指南，反而会让他不知道该听哪个。

第四步是接入Slack和Drive。这是整个系统的灵魂。Summit用Glean MCP把Claude连到了公司的协作工具上。结果是，当某个指标在周一早上异常时，Claude会自动搜索同时段的Slack消息，找到「数据管道修复中」的工单，然后在报告里注明：「该波动由已知事故引起，预计周二恢复。」

这不是技术炫技。这是在复刻一个资深数据分析师的工作流程——他们从不只看数字，他们看数字背后的故事。

最后是eval测试集。Summit让Claude自己生成三个测试问题，比如「2025年10月有哪些AI公司拿了A轮，谁最可能拿B轮？」然后让它自己回答。Claude给出了Glue AI和Pedal Surgical两家公司，理由是：AI公司进入B轮的概率73%，远高于医疗科技的61%；Glue AI的2000万美元融资额正好卡在历史B轮企业的中位数。

这些推理完全来自数据，不是编造。

从提示到完成，整个MCP搭建耗时不到1小时。Summit在那天下午就把它分享给了产品经理——他们现在可以自己问「哪个功能模块的留存率最高」，而不用排队等数据团队的档期。

这背后的逻辑，其实是一种「认知外包」。

想想你上次在超市买电钻——你不是在买电钻，你是在买墙上的那个洞。数据MCP就是那个洞。它的价值不在于「教会Claude写SQL」，而在于把一个数据团队的集体认知（哪些字段可信、哪些join会炸、哪些业务逻辑是隐藏规则）固化成可复用的上下文。

这就是为什么Summit强调「不要从零开始写查询，去翻历史记录」。那些被反复运行的SQL语句，本质上是组织的数据记忆。你要做的，是把记忆翻译成机器能理解的语言。

更深层的变化是权限模型的重构。传统方案里，数据权限是二元的：要么你能直接查库（危险），要么你只能看固定仪表盘（受限）。MCP创造了第三种可能：你可以用自然语言提问，但AI会用经过验证的查询模式来响应。

这让「民主化数据访问」第一次变得安全。

但这不是万能钥匙。Summit很清楚三个局限：

第一，MCP需要持续维护。当数据库schema变更、业务逻辑调整时，你必须同步更新那三条种子查询。否则Claude会继续用过时的模式生成错误结果。

第二，复杂分析仍然需要人类判断。当产品经理问「为什么这个功能的转化率下降」时，Claude可以列出10个相关指标的变化，但无法告诉你「因为竞品上线了新功能」——那需要市场洞察，不是数据推理。

第三，这套方法高度依赖企业的数据成熟度。如果你的数据表命名混乱、缺少文档、充满历史遗留问题——AI不会帮你清理技术债，它只会放大混乱。

Brex的数据显示，Cursor在2025年已经成为创业公司和企业客户的双料冠军。这不是市场炒作，而是真实消费数据的映射。11Labs在语音助手领域占据统治地位。而Anthropic的Claude，正在成为创业公司构建AI产品时的首选模型——不是因为品牌，而是因为它在生产环境中更稳定。

Summit在发布这些数据时说了一句话：「AR数字会说谎，融资新闻会夸大。但消费数据不会。它告诉你，在真实的工作场景里，人们用钱投票给了谁。」

当AI开始学会「读懂」数据库的那一刻，数据分析师的角色就发生了位移——从「执行查询的人」变成「设计查询规则的人」。这不是失业预言，而是一次技能迁移。

那些仍然在手写SQL、手动检查仪表盘的分析师，会发现自己越来越像在用算盘对抗计算器。而那些学会「训练」AI、把自己的认知体系转化成可复用上下文的人，会成为新的稀缺资源。

Claude Code实战：50分钟打造全能AI数据分析师

金句精选