降噪 - AI精选内容平台

超过5亿人每月听播客，但99%的内容在关闭播放器的5分钟后就被遗忘了。

如果你也在通勤路上刷完一集又一集，然后发现自己什么都没记住——你可能正在用收音机时代的方式消费知识。Kevin Ben Smith和他的三个人团队想改变这件事。他们做了一个叫Snipd的播客应用，用AI把音频从「过耳云烟」变成了「可检索的知识库」。

Kevin不是传统意义上的创业者。12年前他在苏黎世联邦理工学院读数学和经济，专攻量化金融。毕业后进了大银行，做着体面但乏味的工作——「我从来没在业余时间读过一篇学术论文，」他说。转折发生在某个周末，朋友拿着一门叫「机器学习」的课程讲义找到他。「我当时想，什么鬼名字？」翻开讲义那一刻，他知道自己恋爱了。

12个月后，Kevin辞掉银行工作，加入一家做AI咨询的创业公司。他在那里待了5年，给银行做各种机器学习模型——从销售推荐到交易文本分类。「我们做过一个NLP模型，把信用卡账单上那些乱码一样的商户名改成正常的CVS这种名字，」他举例，「那时候还没有端到端的生成模型，不会产生幻觉。」

但这不是重点。

真正的起点是4年前的欧洲最大黑客松Hack Zurich。Kevin和那位把他拉入AI世界的朋友决定做一个周末项目：能不能在播客里搜索内容？他们选了Joe Rogan采访Elon Musk的那期——两个半小时的节目——在台上演示时直接搜索「smoking weed」，精准跳转到Musk抽大麻那一刻。台下爆了。

更意外的是比赛后的反应。几十个参赛者跑来问：「我能用这个吗？」「我也有这个问题！」「能不能解决我这个场景？」Kevin意识到，这不只是他们俩的痛点——数亿播客听众都在跟同一个敌人作战：遗忘。

他们的第一版产品叫「Snipd」，核心功能是让用户创建「Snip」——从播客里剪出的片段。设计逻辑很像TikTok：一些人听完整集然后剪辑精华，另一些人刷这些Snip的信息流。「我们以为最难的是让人创建Snip，所以做了三击耳机就自动保存那一刻的功能，」Kevin说，「结果发现假设全错了。」

用户疯狂地剪辑Snip——平均每集能剪七八个——但他们还是更爱听完整的长节目。这个「失败」让团队找到了真正的方向：人们需要的不是短视频化的播客，而是一个能「记住」音频内容的大脑。

从那一刻起，Snipd的定位变了：不再是「AI驱动的播客应用」，而是「用AI把音频变成可搜索知识库的学习工具」。

第一步是最基础也最昂贵的：转录。在Whisper出现之前，他们用的是Facebook的Wav2Vec——那是2020年前后第一批把Transformer架构应用到连续音频数据的模型。「那篇论文让我确信，音频领域会像NLP一样起飞，」Kevin回忆，「即使当时有些功能做不到，我知道很快就能做到。」

现在他们每天处理的数据量是：超过100万集播客的完整转录。每一集都经过这样的流水线——

Whisper转录生成带时间戳的文本，Speaker Diarization模型识别出哪段话属于哪个说话人，LLM给每个说话人分配姓名和简介。这个环节Kevin强调了一个细节：「我们知道播客的结构特征。比如如果一个声音在1小时节目里只出现30秒，那一定不是嘉宾或主持人，是广告配音。」这种启发式规则让他们的说话人识别准确率远超通用方案。

接下来是章节划分。LLM会把整集内容拆成带标题和描述的章节，同时提取出所有提到的书籍。「这个功能很多人不用，但对某些播客用户来说是杀手级，」Kevin说，「当嘉宾推荐一本书，我们会用Perplexity API去找书的封面、作者、简介，然后检索作者出现在哪些其他播客里。」这背后是一整套LLM编排：主模型提取书名，Perplexity负责联网搜索，验证模型确保不是幻觉出来的书。

但最难的部分是「动态广告重同步」。

播客的广告是服务器端动态插入的——每次你点开同一集，实际下载的MP3文件都不同，根据你的IP地址插入不同广告。这意味着他们提前生成的带时间戳转录文本，在用户播放时会完全错位。「我们基本上为这个问题重新实现了一遍Shazam，」Kevin说，「不是精确匹配音频字节，而是模糊匹配算法，实时对齐音频和文本。」

两个字：工程。

整个后端用Python写成，跑在Google Cloud上。前端用Flutter框架——一套代码同时支持iOS和Android。「很多人听说我们用Flutter会觉得性能肯定很差，」Kevin笑道，「然后他们用了我们的应用会很惊讶。」唯一例外是Apple Watch版，那是原生Swift开发的，因为跑步者不想带手机，需要离线下载播客到手表上。

成本控制是四人团队必须面对的现实。他们的LLM调用策略是：转录和说话人识别这种可以批量预处理的任务，自己部署开源模型；实时的用户交互功能——比如「与播客对话」——调用OpenAI和Gemini的API。「我们主要用OpenAI和Google的模型，也用Perplexity做联网搜索，」Kevin说，「Claude的文本质量最好，性格也最好，但成本还是太高。」

有一个细节值得所有AI工程师注意：他们的「Snipd Wrapped」年度总结功能。LLM会根据你一年剪的Snip生成性格标签、学习记分卡、和一条金句。但Kevin发现金句质量不稳定——有时候选出的是超级无聊的话。解决方案不是换更贵的模型，而是让便宜模型生成5个候选金句，再用顶级模型当评委选出最好的那个。「这个模式我们在书籍识别和说话人识别里也用了，」他说，「生成用便宜模型，判断用贵模型。」

技术栈讲完了，但Kevin最想说的其实是另一件事：AI工具的终局不是聊天框。

「我们有个Chat功能，理论上你可以问它任何问题，」他说，「但这不是用户真正想要的体验。用户打开应用，只想看到漂亮排版的总结，而不是先打字问『给我总结一下』。」这是为什么Notion AI那个闪闪发光的按钮让很多人反感——它太「在你脸上」了。「AI应该像电力一样，」Kevin比喻，「没人会说这是一个『电力驱动的麦克风』，对吧？」

他现在最感兴趣的是语音界面。不是Siri那种失败的尝试，而是利用用户已经存在的习惯。「所有消费产品都需要一个触发时刻，」Kevin说，「Airbnb的触发是你想旅行，但Duolingo没有自然触发，所以他们用绿毛怪和连胜机制强行创造习惯。」播客应用的触发时刻已经存在——用户本来就在通勤、跑步、遛狗时听播客——关键是在节目结束的那一刻，不要让他们直接跳到下一集，而是用语音AI陪他们花两三分钟，问一个问题：「这一集对你来说最重要的收获是什么？」

「这是主动思考的过程，」Kevin解释，「当你被迫从10个洞察里选出1个最重要的，你的大脑就开始真正处理信息，而不是被动接收。」

Snipd现在还不完美。说话人识别偶尔会出错，书籍提取有时会漏掉，语音AI还在开发中。但Kevin对此很坦诚：「我们是创业公司，用户知道有时会有小bug，他们接受这个代价，因为回报是我们能快速迭代。如果是Spotify做这些功能，可能要6个月法务审核才能上线。」

真正的限制不在技术。多模态大模型已经能直接吃进原始音频，输出转录、说话人识别、章节划分——Kevin团队现在的整套pipeline理论上可以被一个API调用取代。「Gemini 2.0 Flash我们试过了，成本还是比我们的自建方案贵很多，」他说,「但这只是时间问题。等价格降下来，我们会第一批切过去。」

那时候竞争的护城河在哪里？Kevin的答案是产品思维。「你要一直问自己：用户真正的Job to be Done是什么？」他举例，「转录文本可以点击跳转到时间戳——这不需要你是Andrej Karpathy才能想出来，但这才是用户真正想要的。」

余韵留在纽约的冬日阳光里。这是Latent Space第一次户外录制，Kevin手里端着茶，讲到Snipd的未来规划：接入YouTube视频、生成AI播客、让用户直接跟算法对话调整推荐——「不是『带上你自己的算法』，而是『告诉算法接下来两小时别给我推荐猫视频』。」

镜头之外，一个问题没有被回答：当AI把所有音频都变成可搜索文本，「听」这个动作本身还剩下什么价值？Kevin没说，但Snipd的三击保存功能暗示了答案——重要的不是你听到了什么，而是那一刻你为什么按下了保存键。

AI 播客神器 Snipd：听播客不再是“过耳云烟”，如何用 AI 高效获取知识？

金句精选