所有人都说AI让开发速度提升了十倍。但Alex Albert在Anthropic待了几年后,得出一个让人不舒服的结论:速度从来不是最贵的东西。
那什么才是?
他给了一个词:不可逆。
Alex Albert的名片很难用一句话概括。他曾是Anthropic的DevRel负责人,自称可能是世界上第一个以「Prompt工程师」为职业的人,现在是Claude研究团队的产品经理。他不写代码,但他的工作决定了Claude「成为什么样的模型」。
在一次深度访谈里,他谈到了一个他称之为「不可逆之门」的决策框架。这个框架看似简单,背后却颠覆了大多数人对AI时代产品开发的基本预设。
把模型当成产品来「培育」
普通产品经理管的是功能。Alex管的是一个「人」。
我们把模型当产品来对待。每个新模型,我们都要详细规划——这个模型要擅长什么?我们预期它会在哪里表现出色?但跟普通产品开发最大的区别在于:我们在某种程度上是在「培育」它。
这个「培育」二字不是比喻,是字面意思。在训练流程启动之前,团队会基于架构决策和训练设置建立直觉,但真正的结果谁也不知道。模型训练往往要跑一个月,这段时间里没有办法「暂停看一眼」,更没有办法「改一个参数再试试」。
所以,预训练开始的那一刻,就是一扇真实的「不可逆之门」关上的那一刻。
Alex描述研究团队PM的工作:从模型构思阶段就介入,一路跟到发布。他们要决定这个模型的能力矩阵——编程历来是大头,知识工作(比如处理Excel、做结构化表格)近年来权重越来越高,还要系统性修复上一代模型的已知缺陷。这些决策必须在训练开始前想清楚。想不清楚?那就等下一个版本。
「不可逆之门」:被低估的决策成本
Alex讲过一个判断优先级的方法,我认为是整个访谈里信息密度最高的部分。
我们总是在问:什么是「不可逆之门」?什么决策是做了就回不了头的?因为只有这些,才值得投入最多的时间。如果某件事是可逆的,它实际上就是免费的。
这句话听起来平常,但对照AI工具的现实就会发现它的锋芒所在。
以前,工程师时间是最稀缺的资源。一个功能要做多久?三周。改掉重来?再来三周。这意味着「写代码」本身就是一扇沉重的不可逆之门——改变方向的成本极高,所以每一步都必须想清楚。
现在不同了。Claude Code可以把原来两三周的MVP压缩到一天内。 代码的不可逆性大幅下降,几乎可以认为「写错了重来」的成本趋近于零。
然而,这并不意味着决策成本整体下降了。
结果出乎很多人意料——不可逆之门的位置移动了,而不是消失了。
它现在在哪里?
「协调问题」。
构建东西的速度变快了,但『把这些人叫进会议室、决定这是不是正确策略』的问题依然存在。代码里Claude给了十倍甚至百倍的速度提升,但战略协调上还没有这样的加速。
这是一个让人冷静的观察。AI工具优化了执行层,但它无法替代一间会议室里关于方向的那场讨论。影响用户体验的决策、影响后续所有选项的决策,这些才是AI时代真正的不可逆之门,需要比以前更深的思考。
十分钟能做什么
但承认瓶颈依然存在,并不意味着AI工具没有改变什么。
Alex用了一个例子来说明Claude Code如何重塑了他的工作节奏。
以前,他想知道某个功能的使用数据,需要找数据科学团队提需求,几天后结果才能回来。在这几天里,相关的战略讨论只能搁置或者凭感觉推进。
现在不同了。
开一个Claude Code会话,给它产品数据库的访问权限,让它查日志、翻Slack记录——十分钟内我能得到结果。我不再被数据获取这件事卡住,战略思考的速度快了很多。
他没有说「快了十倍」,他说「不再被卡住」。这个描述更准确。速度提升的本质,是把一类决策从不可逆变成了可逆——数据驱动的验证变得如此廉价,以至于「先做再看」开始成为合理的默认选项。
还有一个他最喜欢的用法:给Claude两个不同的角色或立场,让它自己做辩论,然后他来读辩论记录。这个方法听起来有些奇特,但逻辑清晰——当你需要快速梳理一个想法的薄弱环节时,一场由AI模拟的正反辩论,可以在二十分钟内呈现一份独立思考需要两三天才能整理清楚的论证地图。
Claude的「性格」不是软件功能
访谈里有一段话,如果快速浏览很容易跳过,但我认为是理解Anthropic产品哲学最重要的线索。
早期有人不在乎Claude的性格,觉得「我说什么它做什么就行了」。但进入Agent时代,模型需要长时间运行、做大量判断决策——它的性格和价值观变得至关重要。
这不是修辞。
Alex说,Anthropic内部越来越多人在研究一系列模糊但严肃的问题:Claude应该如何代表自己?应该持有什么信念?面对灰色地带应该怎么行为?
当一个agent需要独立做架构选择、处理数据库决策、在没有人监督的情况下长时间运行,你对它的信任就不能只建立在「它听话」上,而必须建立在「它有好的判断力」上。
这两者的区别,在执行单一指令时几乎看不出来。但在那些你没有预料到的情境里,区别会被放大。
评估这类「性格工程」的方式很特别:定量指标和专家读转录的主观感受结合使用。没有纯数字能捕捉一个模型是否「行为得体」,所以人类的语感判断依然是不可替代的组成部分。
甚至Anthropic内部有专门的研究人员在思考:Claude是不是有意识的?目前没有官方答案。但Alex的态度是——这个研究过程本身很有价值。通过认真思考「Claude如何思考」,他们学到了大量可以直接转化为更好产品体验的东西。
记忆会做梦,决策需要土壤
最后一个细节,关于Claude的记忆机制。
Alex提到Claude.ai有一个类似「做梦」的后台进程——模型在不执行任务的时间里,会遍历自己存储的记忆,找出矛盾之处,进行清理和二次整理。这与部分认知科学对人类梦境的解释高度相似:梦是记忆再巩固的过程。
这个设计背后有一个朴素的逻辑:模型记忆越丰富,它的判断决策就越准确。 Alex举了一个类比——如果你向一个完全陌生的人问「我现在应该怎么做」,他只能给出通用建议,因为他不了解你。但如果他了解你的背景、你的经历、你在乎什么,他会停下来认真思考,给出真正有针对性的答案。
Adaptive Thinking功能的逻辑也类似。以前的Extended Thinking是「开关式」的,打开就全力思考。新的设计让模型自己判断:这个问题值不值得深想?有些问题它会选择慢慢来,有些它会直接回答。
这种「选择性深思」建立在充足上下文之上,没有记忆就没有这种选择能力。
Alex对新手PM的建议只有一句话:
试一试就知道了。把同样的问题同时问Claude。不断测试,你会建立起自己的「Claude地图」——知道它在哪里可靠,在哪里会失败。
这句话没什么高深之处,但有一种难得的诚实。不是「掌握提示词技巧」,不是「理解模型原理」,而是——积累足够多的失败案例,你才能知道那扇不可逆之门在哪里。
现在,有多少人还在等着看别人的地图?
