降噪 - AI精选内容平台

2015年，Dylan买了一台亚马逊Echo。

他对着客厅喊：「Alexa，播放音乐。」电视机开着，他离音箱至少3米远，背景噪音嘈杂。

音乐响起了。

在此之前，Dylan对语音识别的印象是：Siri很烂，所有产品都很烂，没人真的会用。但Echo让他第一次产生了新习惯——设定时器、查天气、放歌。可靠性跨过某个阈值后，行为模式就变了。

他想研究这背后的技术。当时市面上只有两种选择：要么是糟糕的开源方案，要么是Nuance这种老牌公司。Dylan联系了Nuance，对方要求预付几千美元，然后给你邮寄一张光盘。

他的电脑没有光驱。

这个场景成了Assembly AI的起点。2017年夏天，Dylan作为独自创始人进入YC。当时YC刚成立「AI组」，整个组只有十几家公司。那时候说「AI」是贬义词，投资人听到就躲，你得说「深度学习」才能被认真对待。

Dylan选了一条最难的路。

别的创业公司做数据库、做网站，每天能迭代好几版，用户反馈当晚就能改进。而Dylan的产品是语音识别模型，用户提意见，他只能说：「一个月后再联系你，等我们训练好新模型。」

YC只有三个月。他只能迭代三次。

更糟的是，2017年的市场根本不存在。没有好用的大语言模型，没有向量数据库，移动网络还不够快。你想做语音应用，需要的整个技术生态都还没长出来。

如果他当时写了商业计划书，结论一定是：别做这事，TAM（目标市场总规模）只有1000万美元，技术全都不成熟。

但他就是想做。

不是因为商业机会，是因为他想要这个产品存在。他自己想用，而市场上没有好用的版本。

YC的合伙人Daniel Gross曾在苹果工作，见过语音识别技术的真实水平。他成了最早的信徒，在YC结束后个人投资了Assembly AI。Dylan带着几个早期支持者，开始了漫长的等待。

前两年，几乎没有进展。团队只有三四个人。

2021年，他们拿到了第一个真正的客户——一家联络中心公司。

5年时间，第一个客户。

Dylan的逻辑是：这不是产品市场匹配（Product-Market Fit）的问题，而是「什么时候会好到足够匹配」的问题。就像自动驾驶，不是没人要，是还不够好。

转折点在2021年。疫情让远程工作爆发，互联网上产生的语音数据比以往任何时候都多。播客开始流行。Transformer架构的模型开始成熟，转录精度上来了，成本下来了。像BERT这样的NLP模型让情感分析、摘要生成变得可行。

整个技术生态开始咬合。

2022年1月，Assembly AI拿到了Accel领投的A轮融资。那时候还是在大语言模型爆发之前。投资人看到的是：用例在加速，TAM在打开，这个市场终于准备好了。

从那之后的三年，他们累计融资1.6亿美元。

现在，Assembly AI每天处理近200万小时的音频，年化运行率达7亿小时。平台上有100万注册开发者，1万个付费客户。你用过的Granola、Fireflies这些笔记工具，底层都在跑Assembly的转录引擎。你打过达美航空的客服电话，对话很可能也经过了他们的系统。

Zoom、Calabrio、Ashby，财富500强企业在联络中心、信任与安全团队中部署他们的语音AI能力。

但团队只有80人。

Dylan说得很直白：「我希望公司永远在完全混乱边缘的状态。」他不做OKR级联，不做六个月路线图规划。所有核心指标对全公司透明，然后大家就朝着目标冲。

他们踩过坑。2022年拿到大笔融资后，快速扩张团队，招了很多人去探索新方向。后来发现，这是错的。现在的原则是：用现有团队去探索，验证后再投入资源。

每个岗位都有不可妥协的硬指标。面试时Dylan必问：「你为什么想在一家语音AI公司工作？」不是泛泛的AI公司，不是成长快的公司，而是具体的「语音AI」。你对这个产品、这个市场、这些客户有没有真实的兴趣？

他们的Slack是个火力点。公司有个80人的产品频道，所有客户反馈都会直接贴进去，包括那些很糟糕的反馈。一周前有个特别差的评价被贴出来，团队的反应是：「这反馈不错，我们去修。」

这是文化的核心：我们就是要造最好的产品。

他们每次会议都开着AI记录器，不只是为了记笔记，而是在建立一个全公司可查询的知识库。任何工程师都可以问：「根据客户反馈，我们的产品路线图应该是什么？」系统会扫描所有会议转录、Reddit讨论、客服工单，给你一个客观排序。

Dylan的观点是：真相就在那里——客户说了什么，市场发生了什么，Reddit上的抱怨是什么。大多数公司会在这些真相上加一层主观过滤，通常是管理层的主观判断。但如果你把所有真相直接对全公司公开，就不存在主观层了，每个人都在看同一份客观信息。

这是他们能以80人规模做到7亿小时年化处理量的原因之一。

上周，Assembly AI发布了Universal 3 Pro，这是他们最新的语音AI模型。它不只是转录你的话，你可以给它指令，它会按指令执行。

这听起来像大语言模型的能力，但不同。

多模态大语言模型能做转录，但转录只占它训练数据的10%，它还能做数学题，还能当助手聊天。所以它会跑偏，不够可靠。Universal 3 Pro专注在语音理解这个窄域，不会突然觉得自己是个助手，不会跑去做数学题。

它更小、更快、更便宜，可以实时运行，甚至可以部署到客户自己的服务器上。

Dylan给我演示了一段：他对着麦克风念了一串复杂的邮箱地址，「xyz14_x28@gmail.com」，中间还故意念错了一次。模型完美捕捉了修正过程。他又试着低声耳语，模型依然能识别，虽然有小错误，但可以通过prompt调整。

他给模型下了个指令：「把你听到的所有话翻译成西班牙语。」然后用英文说：「Hi, my name is Dylan and I live in New York City.」

转录结果是西班牙语。

模型支持7-8种语言，未来几周会扩展到几十种。

最打动我的是这个场景：一段多人对话的录音，背景有人说话，主说话人声音被压住了。传统模型会丢掉背景声音。但如果你给Universal 3 Pro一个prompt：「当多人同时说话时，标记交叉对话的时间段。」它就会在转录里标出「[crosstalk]」，但不转录内容。如果你想要转录背景语音，再加一句指令就行。

这就是他说的「更聪明的语音AI」。不只是转录，而是理解上下文、区分角色、遵循指令。一个机器人要知道：哪个声音是在给我下命令，哪个声音只是人类之间在聊天。

他们花了多年时间跟客户打交道，积累了一套深度的专业知识：什么场景下会失败，什么指标真正重要。然后把这些知识全部压进模型的后训练（post-training）环节。

这就是他们对抗Google、对抗大厂的武器。

不是资金，不是计算资源，是专业密度。

Dylan提到莱特兄弟的故事。莱特兄弟用自己口袋里的4万美元造飞机，竞争对手Samuel Langley拿着史密森学会的巨额资助，资金是莱特兄弟的20倍。

莱特兄弟赢了。

原因是：他们在一年内做了1000次测试飞行，每次都是自己亲自上。Langley只做了7次，还不是自己飞。专业知识密度的差距是20倍资金抹不平的。

Dylan说：「任何公司想赢，都需要对问题有深度的专业知识。我们是一个高密度的专家团队，我们跟几千个客户泡在Slack里，我们的Slack就是客户反馈的消防水龙——不是过滤后的好消息，是所有东西，好的坏的，全都往80人的产品频道里灌。」

这是他们的护城河。

2026年，实时语音代理（voice agent）开始大规模部署。Dylan说他现在打电话给水管工，经常意识到对方是AI。大多数人还分辨不出来，但有些人聊到一半会突然反应过来：「等等，我在跟AI说话？」然后气氛就变奇怪了。

医疗领域在用环境脉本（ambient scribe）技术。医生跟病人面谈，笔记本电脑放在3米外，自动记录对话，噪音很大，声音很小。但现在的模型准确率能到90%多。看完病，病历自动生成，保险提交自动完成。

机器人公司在把Assembly的模型装进人形机器人。消费硬件设备开始支持语音交互，不只是手机和音箱，是咖啡机、门锁、各种你想象不到的东西。

销售团队在用环境助手。销售员做地推、上门拜访，手机App实时监听对话，给出建议。做这个产品的公司Ziro说，用了这工具的销售员，每季度多拿1-2万美元回家，因为他们得到了以前得不到的实时指导。

这些用例在2017年是科幻。

现在是产品。

Dylan说他现在最关注的是：让语音AI变得更智能。不只是转录你说的话，而是理解你在一个嘈杂房间里，背景有婴儿在哭，你的声音听起来很焦虑。理解说话人切换了语言，理解谁是主要说话人，谁是背景杂音。

技术的阈值是突然跨过的。

2021年，转录模型跨过了第一个阈值，非实时用例爆发了。过去18个月，实时模型跨过了第二个阈值，实时语音代理开始起飞。下一个阈值会是什么？没人知道，但Dylan的策略是：持续推高技术上限，等市场准备好。

他的创业哲学很简单：你必须对问题本身着迷。

「如果我不做Assembly AI，我也不知道我会做什么。我很享受做这件事。我一直在用我们的产品，一直在给别人演示，一直在玩它。你应该选一个你想让它存在的问题，因为你想成为它的用户。」

2017年，这个答案不赚钱。

2026年，这是护城河。

熬了5年才有第一个客户，这家AI公司如何逆袭？

金句精选