降噪 - AI精选内容平台

你会以为，AI推理市场早就被巨头们瓜分干净了。毕竟，全球算力紧张到连一批B200都要提前三五年下单，还得预付三成。然而，Baseten的CEO Tuhin Srivastava却在No Priors播客上抛出了一连串让人直冒冷汗的反常识洞见。他直言：「推理，是AI产业最后一个市场。」在这片看似无缝衔接的深水区，模型不是护城河，连算力都只是入场券，真正的生死线，藏在应用和用户信号的缝隙里。

第一环：推理市场的天花板比你想象的低

「让我晚上睡不着觉的事？容量。」Tuhin毫不犹豫地吐出这个词。Baseten过去一年增长了30倍，在全球18个云上运营着90个集群，集群利用率经常逼近90%甚至更高。每一个节点都在满载高烧，调度器的每一次报警都可能熄灭半个客户的希望。「有时候我合伙人呼叫器一响，他七岁的儿子都会问：『这是P0警报吗？』」Tuhin忍俊不禁。

外人看AI云推理像铺天盖地的浪潮，实则全行业都在算力紧箍咒下玩命抢单。一份B200×1024的合同，交付期动辄三五年起步，预付款要压20%到30%的总合同额。资本在前，产能在后，所有人都在算着GPU小时单价，却没人敢拍着胸脯说能无限扩容。

第二环：95%的tokens来自定制化模型，原始开源权重无人问津

你以为客户会直接拉起一个Llama、Mistral之类的开源大模型，用开箱即用的权重炒作一番？Tuhin一口否定：「95%以上的流量，都是定制化模型。」他说得斩钉截铁，「it is all custom... 95% plus。」Baseten的最大30家客户，没有一个用原始权重的。每家都在数据、流程、接口上做了极深的定制，模型只是一个起点，真正的护城河藏在自有数据、特定流程和微调出来的行为模式里。

「GPU as a service is not sticky... inference with the software layer included is incredibly sticky。」Tuhin举例，单纯卖算力，客户随时可以迁移，一旦把推理与专有工作流深度绑定，迁移成本就会陡增。Baseten的年度NDR（净美元留存率）高达400%，「none of our top 30 customers have ever churned」，没有一家大客户流失。

第三环：开源模型的门槛已被跨越，真正的竞争在「后训练」

Tuhin对开源模型的崛起毫不讳言。从Mistral到Llama到DeepSeek，开源社区的进步离奇地快。「能力已经跨过了关键门槛，今天你拿DeepSeek的权重，成本只要Anthropic或OpenAI的20%，性能却能打个平手。」

但他又补了一刀：「no post training pre-product market fit。」意思是，只有模型后训练（post training）和应用场景结合后，才会有真正的产品市场适配。单靠大模型本体，根本没法撑起商业化闭环——这和当年「GPU meme」如出一辙，算力本身没有护城河，只有把推理和后训练连成闭环，才会有真正的壁垒。

Baseten最近收购了Pastis团队，把推理和后训练打通，目标就是要让客户能在同一平台上完成「模型-后训练-应用」的完整闭环。这才是新一代AI云的底色。

第四环：Jevons悖论——推理成本越低，tokens消耗越快

推理成本骤降，行业是不是就能松口气？Tuhin摇头：「inference going down just begets more。」推理价格每降一毛，客户马上就会把AI嵌入到更多业务环节，每天的tokens消耗反而激增。

这就是Jevons悖论的现代变体——技术进步并没有减缓资源消耗，反而加速了需求。Baseten的客户中，有一家公司把AI嵌进了全部文本、图片、语音数据流，推理成本降到临界点后，tokens消耗量直接翻倍。Tuhin说：「我们见过客户实现了AI工作流全自动化，结果推理账单比以前还高。」

这也解释了为什么，推理市场的容量天花板不是技术决定的，而是由客户的业务想象力和实际用例驱动。每次成本下降，都会迎来一波新的应用浪潮。

第五环：中国模型的「性价比」之谜

DeepSeek这类中国团队的模型，成了Tuhin口中绕不开的话题。「DeepSeek的推理成本只有Anthropic或OpenAI的两成，性能却能打个平手。」他直言，越来越多美国企业愿意尝试中国团队的开源权重，哪怕有地缘和合规顾虑，也难以抗拒性价比的诱惑。

但Tuhin强调：「开源权重只是起点，真正的定制和数据封闭才是终局。」那些敢用中国模型的客户，往往都有极强的自定义能力，他们会把模型深度嵌入自有业务流，所有敏感数据都留在自己的推理闭环内。「没有客户直接用原始开源权重」，他再三强调这一点。

第六环：应用层的护城河——只有用户信号和专有工作流

「the application layer will exist because... the user signal that they can gather that only they can gather。」Tuhin用一种近乎冷酷的口吻指出，应用层永远不会消失。原因很简单，每家企业能采集到的用户信号和反馈，只有自己能拿到，别人无法复制。

他举例，有一家医疗影像SaaS公司，把自家医生团队十几年来的诊断数据全部投喂给模型，生成的AI诊断助手，每天都在自我进化。这种专有数据和工作流，外部模型根本无法复刻。

Tuhin再三强调，模型本身会商品化，推理成本会无限下探，唯有应用层的专有流程、用户反馈、实时数据才是最后的护城河。哪怕未来推理云成为像自来水一样的基础设施，最终的价值也只会沉淀在那些能掌握独有用户信号的应用头部企业手里。

番外：Baseten的运营文化与未来愿景

在高强度集群调度的日常里，Baseten的公司文化也颇为独特。Tuhin提到：「我合伙人的呼叫器一响，他七岁的儿子都会好奇地问，这是不是P0警报。」这种把公司运营透明到家庭的程度，反映了Baseten极度扁平的管理风格。Tuhin坦言，随着团队扩张，领导层的建设迟早要补课，不能总靠创始人亲自冲锋陷阵。

对于未来，他有着清晰的愿景：「我们正在朝着让每个人都拥有一支AI管家团队的方向努力。」在他看来，AI不会变成一台巨无霸中央服务器，而是会以定制化工作流的形态，嵌入每个人和每家企业的日常生活。

小结：推理市场，终究是应用的游戏

回望Baseten的高速成长和Tuhin的反常识洞察，不难发现：AI推理市场永远在边界上游走。模型会迅速商品化，算力会变得像电力一样平庸，只有应用层才是真正的价值高地。

正如Tuhin所说：「推理，是最后一个市场。」但这最后的高地，注定属于那些能掌握用户信号、持续迭代专有工作流的应用型企业，而不是那些只会堆算力、炒模型的玩家。未来AI世界的护城河，不在云端，不在参数，而在真实的业务链条和用户反馈之中。

Baseten CEO详解AI推理基础设施：从容量困局到软件粘性的护城河

金句精选