从华沙郊区到全球AI音频赛道:11 Labs的友情与野心
AI ProductsAI BusinessAI Organization

从华沙郊区到全球AI音频赛道:11 Labs的友情与野心

M
Mati Staniszewski,ElevenLabs 联合创始人兼 CEO | 主持人: Sequoia Capital 投资人
2026年5月6日YouTube
返回首页

金句精选

在波兰,所有外语影视只用一个声音配音,这让我们从小就明白声音是被忽视的情感载体。

语音识别是技术,文本转语音是艺术——我们都是艺术家。

单团队人数永不超过10人,每支非技术团队也必须嵌入一名工程师。

未来不是检测AI,而是检测「真人」——默认一切声音都是可伪造的。

让每一个人的声音、情感和故事,被真实而自由地听见。

2022年,科技圈对音频AI的关注还远没有今天这般沸腾。彼时,区块链和元宇宙狂潮席卷世界,只有少数人在悄然布局「声音」的未来。11 Labs的创始人们就是这样的少数派,而他们的故事,则始于波兰华沙的一个普通高中。

少年结盟:一段跨越17年的友情

故事的主角,是11 Labs两位联合创始人。他们在学生时代就成为了挚友,不仅同班,更几乎年年同桌,选一样的课,参加同样的社团。高中岁月过后,两人依旧形影不离——旅行、升学、工作,一起经历人生中重要的节点。多年后回望,这样的友谊早已成为他们创业路上最大的底气。

「最初的幸运,就是和最好的朋友并肩前行。」谈起这段经历时,创始人总是带着难以掩饰的感激。

来自「单声道」的灵感:音频的本地困境

他们共同成长在波兰的城市郊区。这片土地给了他们深深的乡愁,更在无形中孕育出一份特别的灵感。

至今,在波兰本地看外语电影时,无论原片是几位主角,无论男女老少,配音全都由同一名播音员完成,而且故意保持单调无情绪。观众必须靠自己的想象来“补全”情绪和角色,这让音频消费体验变得异常苍白。即便他们习以为常,但当技术逐步成熟,创始人们敏锐意识到,声音或许才是打破壁垒、重塑体验的关键。

他们开始思考一个问题:「为什么不能复制每个人真实的语音和情感,让任何内容都能用原本该有的声音和情绪传播?」正是这个简单的疑问,成了11 Labs的种子。

行业蓝海:音频AI的被忽视窗口

2022年的AI赛道,文本生成和视觉识别风头正劲,音频却仍被视为“小众”。顶尖的研究人才寥寥无几,融资热度也远不及主流领域。对两位联合创始人来说,这却是难得的时间窗——他们不必和巨头正面对线,数据需求也暂时低于其它领域。音频模型相较于自然语言或视觉模型体量更小,对算力需求更平易。

当然,音频AI有真正的难点:要让机器学会赋予声音以情感、语言、停顿甚至笑声,难度远高于单纯地让机器复述人类的语音。他们深知,不仅需要庞大的原始音频数据,还必须投入巨大人力整理、标注和改进数据和模型。

分布式团队:全球招募科研“强者联盟”

一开始,11 Labs并未选择传统的公司架构。他们以伦敦和华沙为根据地,却不局限于地理。他们以GitHub作为“广场”,搜索世界各地音频领域优秀的开发者和学者,主动联系、发出样品邀请,不分国界地聚拢人才。不过半年光景,就组建起日后业内公认的“音频AI梦之队”。

这种完全分布式的工作方式,让他们比传统模式更快、更灵活、不受地域和办公场所限制,也令早期的研究和迭代进入快车道。

现金流为先,盈利驱动的独特路线

别人还在烧资本、追逐融资神话时,他们就极早把产品商业化作为优先目标。首个付费产品上线之初,就坚决用收入反哺研发,保证现金流和研发独立性。随着企业野心逐渐扩展,团队也不得不引入外部资金规模化推进模型训练。然而,最初“自给自足”的原则,始终保证了公司研发节奏的健康与稳定。

如今,11 Labs已成长为拥有400多名员工,年收入超4亿美元的超级独角兽。更令人惊叹的是,每支核心队伍的人数都极精简,从最前沿算法研发到产品运营,10人之内的小队成为公司标配,“小团体”策略带来敏捷和创新。

产品矩阵:从文字到旋律的AI音频工场

11 Labs第一个落地产品,是文本转语音(Text-to-Speech)模型。它不仅准确发音,最重要的是能解析文本上下文,将情绪与语调“注入”声音:一行幽默台词带上轻佻的语气,一句庄重陈词多了份威严。这项突破,让“机器朗读”第一次有了人的温度。

紧接着,团队又上线了语音转文本(Speech-to-Text),以及支持多语言配音和实时流式对话的模型。每一步,背后都藏着无数数据标注和“魔鬼细节”。他们建成了完整的音频AI流水线,既可支持基础的听写,也能驱动复杂的人机对话与多场景交互。

在音乐生成方向,他们同样迎难而上:一套AI能流畅讲故事、唱歌、恰如其分地把音色和节奏自如切换。团队也创造了业界第一个能让AI“笑出来”的语音模型:AI的笑声和停顿,成为社交媒体热议的“魔法时刻”。

那些让团队震撼的「WOW瞬间」

回忆11 Labs研发历程,创始团队最难忘的不是营收突破、融资高光,而是那些模型让自己“惊愕一刻”。

第一个“哇”的瞬间,是当AI能完整复刻他们的声音时,自己听了甚至怀疑“这就是我吗”?直至对照真人音轨,才感受到技术的不可思议。

后来,他们让AI第一次真正地“笑出来”。这个突破,不仅登上了Hacker News的热门,更迅速引发行业震动。再之后,他们的模型被用在多国元首的演讲配音案例上——从阿根廷总统到印度、乌克兰和美国名人,AI不仅传达信息,还能为每个听众保留说话者本人特有的语气、温度和魅力。

最近,11 Labs又取得了两个关键进展:第一,让AI语音助手真正读懂对方情绪,能做到如果对方紧张,它便用温柔口吻安抚;对方兴奋,它便积极回应;甚至能根据说话速度自动调整节奏。这是AI「情感智能」再升级。第二,则是让音频模型具备“通用智能”:比如,模型能无缝切换朗读、停顿和唱歌,实现真正自然的音频流畅切换。

走出客服,AI音频重塑万千行业

音频AI的第一大落点,毫无疑问是在客户支持。AI语音机器人替代了老式「按键分层」菜单,让每位客户能直接说出问题,自动匹配解决方案。但这还只是冰山一角。

团队更看好“声音代理”在销售、政府服务和教育领域的巨大潜力。例如,外卖平台Deliveroo用AI电话确认餐厅营业时间,大幅提升信息流转效率;德国电信等企业用AI完成初步产品询问或快速成交撮合。不仅流程流畅,客户反馈也大幅增长——语音交流下,用户会更自然地吐露需求,为后续产品优化提供了新线索。

在政府和公益领域,他们与乌克兰政府合作,为全民打造了AI语音信息渠道,覆盖战区前线,让老百姓可随时打电话获取最新政策、教育资讯和安全建议。这种对接入门槛极高的模式,为声音AI在“社会基础设施”中的应用打开了新篇章。

教育场景更是团队心头所好:他们与Masterclass等顶尖教育平台合作,让名师24小时“陪学”上线。你可以边做菜边请Gordon Ramsey现场指导,也能在线与谈判专家Chris Voss“过招”提升实战能力。想象下,如果未来每个人都能有一位不知疲倦、随时响应的专属导师,会有多大能量?

团队哲学:精益极简,技术平权

11 Labs始终维持“小团队、高产值”的组织模式。产品、市场、法务、人事……每一支队伍都配有专职工程师,确保技术自底而上渗透所有流程。无论是谁,都能上手自动化、脚本开发;即便非技术岗位,也能在AI驱动的工作流中灵活调整方向。为此,团队甚至取消了职位头衔,鼓励以影响力和实际贡献来评判成长与晋升。

另一个让人意外的管理创新,是销售和法务用量化系统辅助决策:和某大企业谈判时,公司将条款让步权重“积分化”、自动分配,每笔大单的风控与利润边界透明可控,最大化业务灵活性。

AI人与真人未来的边界:信任、身份与真伪

「未来几年,真实声音和AI生成音频的边界会彻底模糊。」创始人坦言。随着AI代理人遍地开花,人与设备的交互将更多依赖语音;人们也会在现实活动中、与艺术家、专家面对面时,更加重视“真人声音”的温度和信任感。

如何在千千万万AI声音与真人之间分辨真伪?11 Labs认为,未来的音频内容里,“真实”需要像今天查AI一样被水印、认证,才能获得信任与法律、伦理保障。AI本身的多语言、情感识别,将加速沟通和服务的个性化,但监管与信任机制同样会迎来创新。

现象级生态:专注、沉淀、持续领先

「AI音频只有技术和艺术的结合,才能真正做到极致。」英伟达创始人黄仁勋曾经这样评价——11 Labs一手建成了20,000+风格体声音色的数据库,持续精雕细琢每一个模型,专门组建千人标注和配音团队。每一个细节,都是他们保持壁垒的砝码。

再优秀的模型也只是生态的一环。11 Labs用通用语音引擎、知识管理、渠道对接、质量评测和开放的声音模板等服务,构筑起完整的平台生态——开发者、内容创作者、企业客户都能轻松接入,选择自己喜欢的音色和流程。

全球顶级人才、分布式协作、技术与商业的双轮驱动、「真声音」与「好声音」之间的哲学角力……11 Labs正在用自己的步伐,定义音频AI的未来格局。

尾声:友情、创造力与冒险精神

回想最初一起上学、做实验、嬉闹的时光,两位创始人大概也未曾预料,17年后的协作会将在音频AI的广阔舞台上结出硕果。从华沙郊区的童年到全球顶级AI独角兽,他们以友情为纽带,把对声音的热爱变成一场席卷世界的创新竞赛。

未来还很漫长,他们也许已不再需要为向世界「传达自己的声音」而烦恼,却始终让技术回归最初的本质:让每一个人的声音、情感和故事,被真实而自由地听见。