AI 播客神器 Snipd:听播客不再是“过耳云烟”,如何用 AI 高效获取知识?
AI Products

AI 播客神器 Snipd:听播客不再是“过耳云烟”,如何用 AI 高效获取知识?

K
Kevin Ben-Smith
2025年3月15日YouTube
返回首页

金句精选

他们的「Snipd Wrapped」年度总结功能。LLM会根据你一年剪的Snip生成性格标签、学习记分卡、和一条金句。但Kevin发现金句质量不稳定——有时候选出的是超级无聊的话。解决方案不是换更贵的模型,而是让便宜模型生成5个候选金句,再用顶级模型当评委选出最好的那个。「这个模式我们在书籍识别和说话人识别里也用了,」他说,「生成用便宜模型,判断用贵模型。

99%的播客内容在关闭播放器5分钟后就被遗忘了

AI应该像电力一样——没人说这是电力驱动的麦克风

用户不想要聊天框,他们想要排版漂亮的答案

我们基本为动态广告重新实现了Shazam

超过5亿人每月听播客,但99%的内容在关闭播放器的5分钟后就被遗忘了。

如果你也在通勤路上刷完一集又一集,然后发现自己什么都没记住——你可能正在用收音机时代的方式消费知识。Kevin Ben Smith和他的三个人团队想改变这件事。他们做了一个叫Snipd的播客应用,用AI把音频从「过耳云烟」变成了「可检索的知识库」。

Kevin不是传统意义上的创业者。12年前他在苏黎世联邦理工学院读数学和经济,专攻量化金融。毕业后进了大银行,做着体面但乏味的工作——「我从来没在业余时间读过一篇学术论文,」他说。转折发生在某个周末,朋友拿着一门叫「机器学习」的课程讲义找到他。「我当时想,什么鬼名字?」翻开讲义那一刻,他知道自己恋爱了。

12个月后,Kevin辞掉银行工作,加入一家做AI咨询的创业公司。他在那里待了5年,给银行做各种机器学习模型——从销售推荐到交易文本分类。「我们做过一个NLP模型,把信用卡账单上那些乱码一样的商户名改成正常的CVS这种名字,」他举例,「那时候还没有端到端的生成模型,不会产生幻觉。」

但这不是重点。

真正的起点是4年前的欧洲最大黑客松Hack Zurich。Kevin和那位把他拉入AI世界的朋友决定做一个周末项目:能不能在播客里搜索内容?他们选了Joe Rogan采访Elon Musk的那期——两个半小时的节目——在台上演示时直接搜索「smoking weed」,精准跳转到Musk抽大麻那一刻。台下爆了。

更意外的是比赛后的反应。几十个参赛者跑来问:「我能用这个吗?」「我也有这个问题!」「能不能解决我这个场景?」Kevin意识到,这不只是他们俩的痛点——数亿播客听众都在跟同一个敌人作战:遗忘。


他们的第一版产品叫「Snipd」,核心功能是让用户创建「Snip」——从播客里剪出的片段。设计逻辑很像TikTok:一些人听完整集然后剪辑精华,另一些人刷这些Snip的信息流。「我们以为最难的是让人创建Snip,所以做了三击耳机就自动保存那一刻的功能,」Kevin说,「结果发现假设全错了。」

用户疯狂地剪辑Snip——平均每集能剪七八个——但他们还是更爱听完整的长节目。这个「失败」让团队找到了真正的方向:人们需要的不是短视频化的播客,而是一个能「记住」音频内容的大脑。

从那一刻起,Snipd的定位变了:不再是「AI驱动的播客应用」,而是「用AI把音频变成可搜索知识库的学习工具」。

第一步是最基础也最昂贵的:转录。在Whisper出现之前,他们用的是Facebook的Wav2Vec——那是2020年前后第一批把Transformer架构应用到连续音频数据的模型。「那篇论文让我确信,音频领域会像NLP一样起飞,」Kevin回忆,「即使当时有些功能做不到,我知道很快就能做到。」

现在他们每天处理的数据量是:超过100万集播客的完整转录。每一集都经过这样的流水线——

Whisper转录生成带时间戳的文本,Speaker Diarization模型识别出哪段话属于哪个说话人,LLM给每个说话人分配姓名和简介。这个环节Kevin强调了一个细节:「我们知道播客的结构特征。比如如果一个声音在1小时节目里只出现30秒,那一定不是嘉宾或主持人,是广告配音。」这种启发式规则让他们的说话人识别准确率远超通用方案。

接下来是章节划分。LLM会把整集内容拆成带标题和描述的章节,同时提取出所有提到的书籍。「这个功能很多人不用,但对某些播客用户来说是杀手级,」Kevin说,「当嘉宾推荐一本书,我们会用Perplexity API去找书的封面、作者、简介,然后检索作者出现在哪些其他播客里。」这背后是一整套LLM编排:主模型提取书名,Perplexity负责联网搜索,验证模型确保不是幻觉出来的书。

但最难的部分是「动态广告重同步」。

播客的广告是服务器端动态插入的——每次你点开同一集,实际下载的MP3文件都不同,根据你的IP地址插入不同广告。这意味着他们提前生成的带时间戳转录文本,在用户播放时会完全错位。「我们基本上为这个问题重新实现了一遍Shazam,」Kevin说,「不是精确匹配音频字节,而是模糊匹配算法,实时对齐音频和文本。」

两个字:工程。

整个后端用Python写成,跑在Google Cloud上。前端用Flutter框架——一套代码同时支持iOS和Android。「很多人听说我们用Flutter会觉得性能肯定很差,」Kevin笑道,「然后他们用了我们的应用会很惊讶。」唯一例外是Apple Watch版,那是原生Swift开发的,因为跑步者不想带手机,需要离线下载播客到手表上。

成本控制是四人团队必须面对的现实。他们的LLM调用策略是:转录和说话人识别这种可以批量预处理的任务,自己部署开源模型;实时的用户交互功能——比如「与播客对话」——调用OpenAI和Gemini的API。「我们主要用OpenAI和Google的模型,也用Perplexity做联网搜索,」Kevin说,「Claude的文本质量最好,性格也最好,但成本还是太高。」

有一个细节值得所有AI工程师注意:他们的「Snipd Wrapped」年度总结功能。LLM会根据你一年剪的Snip生成性格标签、学习记分卡、和一条金句。但Kevin发现金句质量不稳定——有时候选出的是超级无聊的话。解决方案不是换更贵的模型,而是让便宜模型生成5个候选金句,再用顶级模型当评委选出最好的那个。「这个模式我们在书籍识别和说话人识别里也用了,」他说,「生成用便宜模型,判断用贵模型。」


技术栈讲完了,但Kevin最想说的其实是另一件事:AI工具的终局不是聊天框。

「我们有个Chat功能,理论上你可以问它任何问题,」他说,「但这不是用户真正想要的体验。用户打开应用,只想看到漂亮排版的总结,而不是先打字问『给我总结一下』。」这是为什么Notion AI那个闪闪发光的按钮让很多人反感——它太「在你脸上」了。「AI应该像电力一样,」Kevin比喻,「没人会说这是一个『电力驱动的麦克风』,对吧?」

他现在最感兴趣的是语音界面。不是Siri那种失败的尝试,而是利用用户已经存在的习惯。「所有消费产品都需要一个触发时刻,」Kevin说,「Airbnb的触发是你想旅行,但Duolingo没有自然触发,所以他们用绿毛怪和连胜机制强行创造习惯。」播客应用的触发时刻已经存在——用户本来就在通勤、跑步、遛狗时听播客——关键是在节目结束的那一刻,不要让他们直接跳到下一集,而是用语音AI陪他们花两三分钟,问一个问题:「这一集对你来说最重要的收获是什么?」

「这是主动思考的过程,」Kevin解释,「当你被迫从10个洞察里选出1个最重要的,你的大脑就开始真正处理信息,而不是被动接收。」


Snipd现在还不完美。说话人识别偶尔会出错,书籍提取有时会漏掉,语音AI还在开发中。但Kevin对此很坦诚:「我们是创业公司,用户知道有时会有小bug,他们接受这个代价,因为回报是我们能快速迭代。如果是Spotify做这些功能,可能要6个月法务审核才能上线。」

真正的限制不在技术。多模态大模型已经能直接吃进原始音频,输出转录、说话人识别、章节划分——Kevin团队现在的整套pipeline理论上可以被一个API调用取代。「Gemini 2.0 Flash我们试过了,成本还是比我们的自建方案贵很多,」他说,「但这只是时间问题。等价格降下来,我们会第一批切过去。」

那时候竞争的护城河在哪里?Kevin的答案是产品思维。「你要一直问自己:用户真正的Job to be Done是什么?」他举例,「转录文本可以点击跳转到时间戳——这不需要你是Andrej Karpathy才能想出来,但这才是用户真正想要的。」

余韵留在纽约的冬日阳光里。这是Latent Space第一次户外录制,Kevin手里端着茶,讲到Snipd的未来规划:接入YouTube视频、生成AI播客、让用户直接跟算法对话调整推荐——「不是『带上你自己的算法』,而是『告诉算法接下来两小时别给我推荐猫视频』。」

镜头之外,一个问题没有被回答:当AI把所有音频都变成可搜索文本,「听」这个动作本身还剩下什么价值?Kevin没说,但Snipd的三击保存功能暗示了答案——重要的不是你听到了什么,而是那一刻你为什么按下了保存键。