熬了5年才有第一个客户,这家AI公司如何逆袭?
AI ProductsAI OrganizationAI Business

熬了5年才有第一个客户,这家AI公司如何逆袭?

D
Dylan(Assembly AI 创始人) | 主持人: YC合伙人
2026年3月5日YouTube
返回首页

金句精选

「我在2017年挑了一个非常难的产品方向,当时所有人都在做三个月就能迭代的项目,而我们一个月才能迭代一次」

「在2017年,如果我做了商业计划书,我可能会得出结论:我不应该做这件事,因为市场太小了」

「自动驾驶不是产品市场匹配的问题,而是什么时候会好到足够匹配的问题」

「我们公司的Slack就是客户反馈的火力点,包括那些很糟糕的反馈也会直接贴在80人的产品频道里」

「我希望公司永远保持在完全混乱边缘的状态,因为那才是创新和速度的最佳位置」

2015年,Dylan买了一台亚马逊Echo。

他对着客厅喊:「Alexa,播放音乐。」电视机开着,他离音箱至少3米远,背景噪音嘈杂。

音乐响起了。

在此之前,Dylan对语音识别的印象是:Siri很烂,所有产品都很烂,没人真的会用。但Echo让他第一次产生了新习惯——设定时器、查天气、放歌。可靠性跨过某个阈值后,行为模式就变了。

他想研究这背后的技术。当时市面上只有两种选择:要么是糟糕的开源方案,要么是Nuance这种老牌公司。Dylan联系了Nuance,对方要求预付几千美元,然后给你邮寄一张光盘。

他的电脑没有光驱。

这个场景成了Assembly AI的起点。2017年夏天,Dylan作为独自创始人进入YC。当时YC刚成立「AI组」,整个组只有十几家公司。那时候说「AI」是贬义词,投资人听到就躲,你得说「深度学习」才能被认真对待。

Dylan选了一条最难的路。

别的创业公司做数据库、做网站,每天能迭代好几版,用户反馈当晚就能改进。而Dylan的产品是语音识别模型,用户提意见,他只能说:「一个月后再联系你,等我们训练好新模型。」

YC只有三个月。他只能迭代三次。

更糟的是,2017年的市场根本不存在。没有好用的大语言模型,没有向量数据库,移动网络还不够快。你想做语音应用,需要的整个技术生态都还没长出来。

如果他当时写了商业计划书,结论一定是:别做这事,TAM(目标市场总规模)只有1000万美元,技术全都不成熟。

但他就是想做。

不是因为商业机会,是因为他想要这个产品存在。他自己想用,而市场上没有好用的版本。

YC的合伙人Daniel Gross曾在苹果工作,见过语音识别技术的真实水平。他成了最早的信徒,在YC结束后个人投资了Assembly AI。Dylan带着几个早期支持者,开始了漫长的等待。

前两年,几乎没有进展。团队只有三四个人。

2021年,他们拿到了第一个真正的客户——一家联络中心公司。

5年时间,第一个客户。

Dylan的逻辑是:这不是产品市场匹配(Product-Market Fit)的问题,而是「什么时候会好到足够匹配」的问题。就像自动驾驶,不是没人要,是还不够好。

转折点在2021年。疫情让远程工作爆发,互联网上产生的语音数据比以往任何时候都多。播客开始流行。Transformer架构的模型开始成熟,转录精度上来了,成本下来了。像BERT这样的NLP模型让情感分析、摘要生成变得可行。

整个技术生态开始咬合。

2022年1月,Assembly AI拿到了Accel领投的A轮融资。那时候还是在大语言模型爆发之前。投资人看到的是:用例在加速,TAM在打开,这个市场终于准备好了。

从那之后的三年,他们累计融资1.6亿美元。

现在,Assembly AI每天处理近200万小时的音频,年化运行率达7亿小时。平台上有100万注册开发者,1万个付费客户。你用过的Granola、Fireflies这些笔记工具,底层都在跑Assembly的转录引擎。你打过达美航空的客服电话,对话很可能也经过了他们的系统。

Zoom、Calabrio、Ashby,财富500强企业在联络中心、信任与安全团队中部署他们的语音AI能力。

但团队只有80人。

Dylan说得很直白:「我希望公司永远在完全混乱边缘的状态。」他不做OKR级联,不做六个月路线图规划。所有核心指标对全公司透明,然后大家就朝着目标冲。

他们踩过坑。2022年拿到大笔融资后,快速扩张团队,招了很多人去探索新方向。后来发现,这是错的。现在的原则是:用现有团队去探索,验证后再投入资源。

每个岗位都有不可妥协的硬指标。面试时Dylan必问:「你为什么想在一家语音AI公司工作?」不是泛泛的AI公司,不是成长快的公司,而是具体的「语音AI」。你对这个产品、这个市场、这些客户有没有真实的兴趣?

他们的Slack是个火力点。公司有个80人的产品频道,所有客户反馈都会直接贴进去,包括那些很糟糕的反馈。一周前有个特别差的评价被贴出来,团队的反应是:「这反馈不错,我们去修。」

这是文化的核心:我们就是要造最好的产品。

他们每次会议都开着AI记录器,不只是为了记笔记,而是在建立一个全公司可查询的知识库。任何工程师都可以问:「根据客户反馈,我们的产品路线图应该是什么?」系统会扫描所有会议转录、Reddit讨论、客服工单,给你一个客观排序。

Dylan的观点是:真相就在那里——客户说了什么,市场发生了什么,Reddit上的抱怨是什么。大多数公司会在这些真相上加一层主观过滤,通常是管理层的主观判断。但如果你把所有真相直接对全公司公开,就不存在主观层了,每个人都在看同一份客观信息。

这是他们能以80人规模做到7亿小时年化处理量的原因之一。

上周,Assembly AI发布了Universal 3 Pro,这是他们最新的语音AI模型。它不只是转录你的话,你可以给它指令,它会按指令执行。

这听起来像大语言模型的能力,但不同。

多模态大语言模型能做转录,但转录只占它训练数据的10%,它还能做数学题,还能当助手聊天。所以它会跑偏,不够可靠。Universal 3 Pro专注在语音理解这个窄域,不会突然觉得自己是个助手,不会跑去做数学题。

它更小、更快、更便宜,可以实时运行,甚至可以部署到客户自己的服务器上。

Dylan给我演示了一段:他对着麦克风念了一串复杂的邮箱地址,「xyz14_x28@gmail.com」,中间还故意念错了一次。模型完美捕捉了修正过程。他又试着低声耳语,模型依然能识别,虽然有小错误,但可以通过prompt调整。

他给模型下了个指令:「把你听到的所有话翻译成西班牙语。」然后用英文说:「Hi, my name is Dylan and I live in New York City.」

转录结果是西班牙语。

模型支持7-8种语言,未来几周会扩展到几十种。

最打动我的是这个场景:一段多人对话的录音,背景有人说话,主说话人声音被压住了。传统模型会丢掉背景声音。但如果你给Universal 3 Pro一个prompt:「当多人同时说话时,标记交叉对话的时间段。」它就会在转录里标出「[crosstalk]」,但不转录内容。如果你想要转录背景语音,再加一句指令就行。

这就是他说的「更聪明的语音AI」。不只是转录,而是理解上下文、区分角色、遵循指令。一个机器人要知道:哪个声音是在给我下命令,哪个声音只是人类之间在聊天。

他们花了多年时间跟客户打交道,积累了一套深度的专业知识:什么场景下会失败,什么指标真正重要。然后把这些知识全部压进模型的后训练(post-training)环节。

这就是他们对抗Google、对抗大厂的武器。

不是资金,不是计算资源,是专业密度。

Dylan提到莱特兄弟的故事。莱特兄弟用自己口袋里的4万美元造飞机,竞争对手Samuel Langley拿着史密森学会的巨额资助,资金是莱特兄弟的20倍。

莱特兄弟赢了。

原因是:他们在一年内做了1000次测试飞行,每次都是自己亲自上。Langley只做了7次,还不是自己飞。专业知识密度的差距是20倍资金抹不平的。

Dylan说:「任何公司想赢,都需要对问题有深度的专业知识。我们是一个高密度的专家团队,我们跟几千个客户泡在Slack里,我们的Slack就是客户反馈的消防水龙——不是过滤后的好消息,是所有东西,好的坏的,全都往80人的产品频道里灌。」

这是他们的护城河。

2026年,实时语音代理(voice agent)开始大规模部署。Dylan说他现在打电话给水管工,经常意识到对方是AI。大多数人还分辨不出来,但有些人聊到一半会突然反应过来:「等等,我在跟AI说话?」然后气氛就变奇怪了。

医疗领域在用环境脉本(ambient scribe)技术。医生跟病人面谈,笔记本电脑放在3米外,自动记录对话,噪音很大,声音很小。但现在的模型准确率能到90%多。看完病,病历自动生成,保险提交自动完成。

机器人公司在把Assembly的模型装进人形机器人。消费硬件设备开始支持语音交互,不只是手机和音箱,是咖啡机、门锁、各种你想象不到的东西。

销售团队在用环境助手。销售员做地推、上门拜访,手机App实时监听对话,给出建议。做这个产品的公司Ziro说,用了这工具的销售员,每季度多拿1-2万美元回家,因为他们得到了以前得不到的实时指导。

这些用例在2017年是科幻。

现在是产品。

Dylan说他现在最关注的是:让语音AI变得更智能。不只是转录你说的话,而是理解你在一个嘈杂房间里,背景有婴儿在哭,你的声音听起来很焦虑。理解说话人切换了语言,理解谁是主要说话人,谁是背景杂音。

技术的阈值是突然跨过的。

2021年,转录模型跨过了第一个阈值,非实时用例爆发了。过去18个月,实时模型跨过了第二个阈值,实时语音代理开始起飞。下一个阈值会是什么?没人知道,但Dylan的策略是:持续推高技术上限,等市场准备好。

他的创业哲学很简单:你必须对问题本身着迷。

「如果我不做Assembly AI,我也不知道我会做什么。我很享受做这件事。我一直在用我们的产品,一直在给别人演示,一直在玩它。你应该选一个你想让它存在的问题,因为你想成为它的用户。」

2017年,这个答案不赚钱。

2026年,这是护城河。