年营收超5000万美元,韩国6%人口用过的英语学习产品,是在旧金山的办公室里做出来的。
如果你正在等待某个AI技术成熟才开始做产品,Andrew Su在2016年就开始等了。他等了整整六年。
2016年,Whisper还没出现,ChatGPT是个科幻概念。Andrew和联合创始人花了整整一年自学AI论文,找到刚毕业的Andrej Karpathy请教。他们得出一个笃定的判断:语音模型5到10年内会达到超人类水平,语言教育会被AI彻底重构。
押注很大。但判断对了。
Andrew Su,Thiel Fellow首批成员,19岁拿到10万美元从研究生院退学。他在访谈里说自己「从没在真正的公司工作过」,联合创始人也是。两个没有企业经验的人,选了消费级产品这条最难的路。
「我的联合创始人和我都是iPhone重度用户,我们只知道怎么做消费产品。」他停顿了一下,「坦白说,我们根本不知道企业软件是什么样的。」
这不是谦虚。2017到2019年,Speak的第一版产品是个「红色app」,用户可以随意选择学习内容包,支持多语言。免费,没有明确学习路径,完全失败。
2018年,他们推倒重来。
重启的逻辑是:缩小范围,做一个足够极端的市场测试。
他们几乎选了台湾,但第一位员工SJ是韩国人。联合创始人去首尔考察时,SJ充当翻译。就是那次实地走访,让他们看到了首尔整栋大楼都是英语培训教室的景象。
「如果我们能在这个充满人类竞品的市场赢下来,我们的产品力就是真的。」Andrew说。这是他们当时的全部逻辑。
但这不是重点。
真正反直觉的是:一个旧金山团队,做给韩国用户的产品,用户竟然以为这是韩国本土公司。秘密在于他们对按钮文案的极致打磨。「我们收到很多用户反馈,说震惊于Speak是美国公司。因为通常你总能从措辞里看出来。」
这需要SJ的功劳。但更需要的是,创始团队对「本地化不是翻译,是重新创作」的理解。
2019到2022年,Speak在韩国做到了几百万美元年营收。没有LLM,没有Whisper,只是一个「听-跟读」的简单产品。
2022年11月,Whisper发布。
Andrew清晰记得那个下午。办公室里四个人围着电脑,测试Whisper处理韩国初学者英语录音的能力。那段音频,四个母语者闭着眼睛听,都听不懂在说什么。
模型答对了。
「这就是我们等了六年的时刻。」他说。
一个月后,ChatGPT发布。两周后,GPT-3.5 Turbo API开放。他们意识到:所有拼图都到齐了。Speak可以从「跟读工具」进化成「AI英语教练」。
但技术成熟不等于产品就能做出来。Andrew面临的第一个问题是:如何让AI对话不跑偏。
「Magic Onboarding」:状态机还是相信AGI?
Andrew团队做了两版AI入门对话。第一版是严格的状态机:系统预设5个必问问题,按顺序收集用户的学习目标、当前水平、可用时间。
问题出在下一步。
用户会说「我想学商务英语,但主要是为了旅行」。状态机不知道该把这归类为「商务」还是「旅行」。于是第二版他们移除了状态机,改用Prompt控制对话目标,配合独立的LLM摘要模块。
AI不会把完整对话展示给用户,而是实时总结:「你关心的是:商务场景的口语表达,尤其是机场和酒店」。这个设计的妙处在于,用户看到的不是冷冰冰的转录文本,而是AI对意图的理解。
当然,他们保留了大量guardrails。「如果用户开始对着AI讲脏话或者尝试突破系统,对话会快速崩溃。」Andrew坦言,evals的工作量不小,但这是必须付出的成本。
定制ASR vs. Whisper:一个产品里同时跑两套语音识别
很多人以为Whisper出来后,Speak就直接换掉了自研的ASR模型。实际情况是:他们同时保留了两套系统。
自研ASR负责核心的「跟读循环」——用户看到一句话,听标准发音,然后重复。这个场景需要极低延迟,100毫秒以内。Speak的自研模型是流式的,专门用非母语英语数据fine-tune过。
Whisper负责开放式对话场景——AI教练给你反馈「你刚才说的那句话,母语者会用另一个词」。这不需要实时响应,但需要更强的语义理解能力。
这是一个被很多创业者忽略的细节:新技术出现时,不是全盘推翻,而是找到新旧技术的最佳分工点。
课程生成:从人工编写到AI Agent流水线
Speak最初的所有课程都是洛杉矶工作室的内容团队手写的。脚本、录音、剪辑,全部人工。这在只教英语的时候还可以勉强扩展,但2024年他们要上线西班牙语、法语、意大利语——人力彻底扛不住。
Andrew的解决方案是搭建一条AI生产线:Curriculum Writer Agent负责设计课程大纲,Tutor Agent负责生成具体对话场景,最后由人类内容团队审核。
但他承认,评估系统还没做好。「我们在努力把『如何训练一个新内容编辑』的隐性知识显性化,然后用model-graded evals去打分。但这真的很难,因为有太多微妙的细节。」
未来的方向是用强化学习,拿Speak内部的优质课程数据去fine-tune一个专用的课程生成模型。
实时语音的成本难题:每小时对话要花多少钱?
OpenAI的Realtime API在2024年底发布时,Andrew团队是早期测试者。他们做了一个完整的交互式课程原型:3到5分钟的AI老师讲解,中间穿插多轮对话练习。
但没上线。原因是成本。
「Realtime API的定价模型适合客服场景——你在直接替代一个按小时付费的人类员工。但我们希望用户每天练习几个小时。」Andrew说。
Speak的用户打开app,期待的是「随时可以练,练多久都行」。如果一个用户每天对话2小时,按Realtime API的价格,月成本会高到无法承受。
他们的办法是:只在关键场景使用Realtime API,大部分对话仍然用传统的「ASR + LLM + TTS」三段式架构。成本是这套架构的十分之一。
两个字:权衡。
理论升华:为什么「远程团队」和「跨国市场」同时成立?
想想你上次网购时选「包邮」选项——你不是在选物流方案,你是在选「不用再想这件事」的心理确定性。Speak的决策逻辑也是这样。
2018年他们招到第一个iOS工程师,人在斯洛文尼亚。不是因为便宜,是因为「面试了一圈,他是最好的」。然后这个工程师的朋友也很强,再然后就有了一整个斯洛文尼亚办公室。
同样的逻辑也适用于选韩国市场:不是因为市场调研报告说韩国最好,而是第一位员工SJ恰好是韩国人,去首尔考察的体验恰好很顺。
这背后是一种「局部最优解叠加」的决策模式:不追求一开始就找到全局最优,而是在每个决策点选择当下最好的选项,然后用执行力把它做到极致。远程团队能成,是因为Andrew每天和斯洛文尼亚团队同步,硬扛时差。韩国市场能赢,是因为SJ把每一个按钮文案都打磨到本地用户察觉不出这是外国产品。
这不是说远程或跨国市场天然更好。而是说:当你在某个局部做到了极致,它会自然生长出护城河。
局限性提醒:这套方法不适合所有人
Andrew说「我们从来没有pivot过」,2016年的YC申请视频里说的愿景,2024年还在说。这需要极强的信念和极长的等待周期。
如果你的方向需要6年技术成熟期,你需要先活下来。Speak在2019到2022年靠「简单的跟读工具」做到几百万美元营收,这是他们能等到Whisper的原因。
另一个门槛是市场选择。韩国的英语学习需求足够强、付费意愿足够高、线下竞品足够多——这让「AI替代人类教练」的价值主张极其清晰。如果Speak选的是一个需求模糊的市场,可能早就死了。
最后,这是一个需要深度技术积累的方向。Andrew团队从2018年就开始做定制ASR、积累非母语英语数据、搭建内容生产工具链。这些都不是「LLM出来后两个月搭个原型」能做到的。
Andrew在访谈最后说了一句话:「我觉得很奇怪,像Speak这样规模的AI-native消费产品竟然这么少。应该有更多才对。」
他停顿了一下,「我们需要更多builders。」
GPT-4发布快两年了。大部分人的生活还是没变。不是技术不够好,是应用太少。
你会是那个builder吗?