代码量暴增背后:AI编程时代的质量博弈
AI Coding

代码量暴增背后:AI编程时代的质量博弈

W
Weiwayi(Momentic联合创始人)、Jeff(Momentic联合创始人) | 主持人: Y Combinator
2026年3月23日YouTube
返回首页

金句精选

代码只是实现细节,是一种商品,真正的真理是用自然语言描述的用户旅程和成功标准

我不能相信Cursor或Claude Code自己告诉我它们做对了,我需要一个外部的真理来源来验证

测试代码不会出现在客户演示里,不会被写进绩效评估,感觉像是拖后腿的工作

三到六个月后,如果我还在审查TypeScript或React代码,我会觉得很失望

每个开发者每天写的代码行数呈指数级增长,但谁来验证这些代码真的能用?

Weiwayi在Robinhood当工程师时,管理着八个人的团队,这八个人的工作就是想办法让其他一千名工程师写测试。目标是测试覆盖率达到80%,通过率保持90%。「基本不可能完成,因为没人在乎这件事。」测试代码不会出现在客户演示里,不会被写进绩效评估,感觉像是拖后腿的工作。但正是这段经历,让他和联合创始人Jeff在2024年创办了Momentic,现在处理着每天超过一百万次的测试运行,服务Notion、Kora等公司,刚刚完成了5000万美元的A轮融资。

从Cursor到Code,AI编程工具的速度每天都在刷新记录。每个开发者每天写的代码行数呈指数级增长,但这个趋势暴露出一个严重的瓶颈:谁来验证这些代码真的能用?

传统的验证链条包括三层:llinters扫描代码模式和最佳实践、人工代码审查或AI审查工具、最后是人工登录系统手动点击测试。「当你的产品规模变大,工程师数量增多,这套流程既慢又贵,根本扛不住。」Jeff说。

Momentic做的是功能测试层,它模拟真实用户在应用里的操作流程,确保每个用户路径都能正常工作。一个工程师提交代码后,Momentic自动检查所有相关功能是否因这次改动而崩溃。平均每个测试步骤在300毫秒内完成,并且自动诊断问题所在——这是传统浏览器agent做不到的速度和精准度。

更关键的是集成方式。Momentic通过MCP集成进Cursor和Claude Code,让编程agent在写代码的同时就能调用真实浏览器验证功能是否正确。「我们发现agent经常以为自己的代码是对的,实际上根本跑不通。而且这些agent并没有针对浏览器测试做优化,面对富文本编辑器、拖拽功能、画布类应用这些复杂界面时,验证起来非常困难。」Jeff说。

Notion的故事很典型。Notion的工程师Simon在Twitter上发了条推文,大意是希望能用自然语言描述一个功能然后自动测试它。很多人在评论区推荐Momentic。那天晚上10点,Weiwayi在旧金山,直接给Simon发了DM:「我们做的就是你想要的东西,今晚就能给你开通。」他录了个视频,演示如何在自己的Notion工作区上做测试。当晚就完成了onboarding。

Notion之前用的是大量Selenium测试脚本加人工测试,Selenium最大的问题是不稳定——XPath和选择器经常失效,尤其是面对Notion这种灵活度极高的富文本编辑器和数据库产品时,测试脚本动不动就崩。现在Notion每天执行近五十万次Momentic测试,工程师必须通过Momentic测试才能合并PR。

Jeff提出了一个新概念:真理驱动开发(Truth-Driven Development)。传统的开发逻辑是代码即真理,生产环境里跑的就是你想要的样子。但代码里有bug,难道bug也是产品应该有的行为吗?真理驱动开发的逻辑是,由人类和AI协作,用自然语言详细描述用户旅程、成功标准、边界情况,这些规格说明才是真理。代码只是实现这个真理的手段。「因为人会犯错,AI也会犯错,所有人都在往代码库里提交代码,那代码库本身怎么能作为真理的来源?」

这个逻辑在AI编程时代变得更加成立。工程师现在跟Cursor、Claude Code、ChatGPT聊天来生成代码,交互方式本身就是自然语言。「三到六个月后,如果我还在审查TypeScript或React代码,我会觉得很失望。」Jeff说。未来的软件开发正在往这个方向走:工程师用自然语言给AI agent提供规格说明,agent自动构建、验证、确保所有成功标准和边界情况都覆盖到,代码只是实现细节,是一种商品。

但如果模型越来越好,代码质量越来越高,Momentic的价值会不会被削弱?答案恰恰相反。模型质量提升,改变的是用户行为而不是验证需求。工程师会越来越少关注生成了什么代码,更多时间花在需求梳理和找到事实真相上——该做什么功能,一千个客户需求里哪些是真正该实现的。他们成为代码生成黑盒的输入端,Momentic是验证黑盒输出是否符合功能要求的那个环节。

「我不能相信Cursor或Claude Code自己告诉我它们做对了,我需要一个外部的真理来源来验证。」Jeff说。「如果出了问题,我不可能跟客户说『我们用Claude Code vibe coding写的,SLA被breach了,抱歉我们要回滚这个PR』。责任最终在产品负责人和人类身上,是他们在向这些AI agent委派任务。」

另一个关键点是维护源头真理。Cursor不会帮你长期维护真理来源,就像你可以让Cursor生成十万行Playright测试代码,但当你改了功能后,你得找出那五万行需要更新的代码再手动改。Momentic把这套系统封装起来,自动维护真理来源,甚至会主动建议:你新加了这个UI组件,是故意的吗?如果是,我可以自动更新测试,不用你再烧20万个token的Cursor credits。

Jeff在采访中说了一句话:「我想赢,不只是赢,我想干掉所有竞争对手。我们会赢,会摧毁他们所有人。这是必然发生的事。」

代码量暴增的时代,验证层才是那个真正稀缺的东西。