2022年4月,Steven Johnson在「纽约时报杂志」发表了一篇关于大语言模型的文章。网上的评论几乎一边倒:「Johnson被炒作冲昏了头脑」「这不过是加强版自动补全」「真可悲」。
如果你现在还在逐字逐句读100页的幻灯片,你可能正在用打字机时代的方式处理信息。
但两年后的今天,这篇被嘲讽的文章催生的产品NotebookLM,Discord服务器有6.5万成员,音频概览功能让全球用户疯狂。而这一切,只用了7个全职工程师。
Steven Johnson,14本畅销书作者,TED演讲播放量超1000万次。他最出名的身份是作家,但更准确的标签应该是「工具狂热者」。
大学时代的1980年代末,他因为痴迷苹果的HyperCard软件,用整整一个学期试图把课堂笔记都塞进去。「我当时想,如果能搞定这个软件,我就能想出更有意思的点子。」那个学期他没学到什么课程知识,但迷上了一个问题:软件能否帮助我们更清晰地思考?
这个问题跟了他几十年。
2021年10月,Steven终于拿到了GPT-3的访问权限。他一个人在书房坐了三个小时,脑子里只有一个念头:一切都要变了。
不是因为模型有多聪明,而是因为它掌握了语言本身。对于一个写了几十年书的人来说,这意味着他追寻了一辈子的「思考工具」,突然有了全新的可能性。
于是他写了那篇文章。然后被骂惨了。
但谷歌实验室的两个人Clay Bavor和Josh Woodward读到了。他们刚成立Labs,想做点不一样的事情:不要只让技术人员做音乐产品,把音乐家请进来一起做。Labs的哲学是「共创」,而Steven正好是个痴迷思考工具的作家。
2022年7月25日,Steven收到Josh的邮件:「我们要启动一个思考工具项目,假装这是个创业公司。我会给你最好的人和最新的研究。咱们干吧。」
那一天,他见到了Raiza Martin。
但真正的魔法,来自另一个人。
Raiza Martin12岁时,和身为医生的父亲一起组装了第一台电脑。不是买现成的,因为菲律宾进口电脑太贵,她爸说「我打赌自己能做」。他们成功了。
16岁高中毕业时,她打开iPod的白色盒子,看到背面印着「Cupertino制造」。她问父亲:「这是哪儿?我想去那工作。」父亲说:「那在美国,很远。」她说:「那怎么去?」
不久后全家移民美国。她给苹果写了封邮件:「能给我个工作吗?」苹果回复:「你会什么?」她当时还是个孩子,最后去了苹果店修电脑。
多年后她进了谷歌。2022年,她读到Steven那篇被批判的文章,第一反应是:「就这个了,这就是我接下来几十年要做的事。」
她加入Labs时,Josh的任务只有一句话:「建一个业务。」没说做什么产品,也没说怎么做。这是她收到过最好的空白支票。
问题出在下一步。
当时谷歌内部有个20%时间项目,名字起得很糟糕:「Talk to a Small Corpus」(跟一小堆文本对话)。是两个工程师Dale和Adam在2022年6月启动的,比Steven和Raiza见面早了一个月。
这个项目的核心想法后来成了NotebookLM的种子:与其跟通用大模型聊天,为什么不给模型提供一组特定文档,让它基于这些文档回答问题?
好处显而易见:减少幻觉,实现个性化,让AI处理你正在研究的材料。但技术上很难,因为当时模型的上下文窗口太小,塞不进多少信息。
Adam在Colab里搭了个原型。2022年8月中旬,Steven把自己的书「Wonderland」的几段扔进去,开始提问。AI回答了,还标注出「答案来自书中的这几段」。
Steven盯着屏幕:「六个月前世界上没有一台电脑能做这个。」
原型界面丑得没法看,但有东西在那儿了。这就是NotebookLM的起点。
重场景:从「相信它会好」到真正能用
早期的NotebookLM,说实话,不太行。
模型还没准备好做他们想做的事,UI也很粗糙。但团队做了一个赌注:相信模型会变好,所以先按照理想状态设计产品。
Raiza回忆:「前六个月,产品确实能用,但我们得相信它会变得更好,相信邻近可能性会打开。」
「邻近可能性」是Stuart Kauffman提出的概念,Steven写过一本书专门讲这个。简单说就是:技术演进就像开门,每扇新开的门后面还有更多门。1830年没人试图发明电灯泡,因为那扇门还没打开;到了1880年,全世界有上百人同时在做这件事,因为前置技术准备好了。
对NotebookLM来说,2023年初的大门还半开着。他们在等一个东西。
2024年初,Gemini 1.5来了。
更长的上下文窗口,多模态,多语言支持,还有原生的引文能力。这是个转折点。Steven说:「每次拿到新版本模型,就像圣诞节早上。我们会想,天哪,又有这么多新功能可以玩了。」
Raiza的反应更直接:「产品刚开始时,你就是疯的。你在做一个不可能的东西。然后Gemini来了,你突然意识到:我没疯,东西真的能做到了。」
引文功能是个例子。当你在NotebookLM里提问,它不仅给答案,还会标出答案来自哪些原始段落,你可以点进去查看原文。这部分是UI设计,但更关键的是Gemini本身就支持引文分析。
2024年5月到6月,团队终于确认:「OK,这真的能用了。」
音频概览:意外的病毒传播
但真正让产品爆炸的,是三个月后的音频概览功能。
这个功能不是NotebookLM团队想出来的。Labs内部另一个团队在做独立项目:把文档变成两个AI主持人的对话音频。某个时间点,有人提议:「这个能放进NotebookLM吗?」
Steven当时的反应很坦诚:「我是文字人,听信息对我来说太慢,我也记不住。」他把这个功能理解为「给听觉型学习者的Notebook指南」,所以说「你们做吧,我不挡着」。
Raiza也不是听觉型学习者。直到有一次,她要读一份100页的幻灯片,上传到NotebookLM生成音频,开车回家路上听完了。她的反应是:「我们做到了。从疯狂到很酷,我们跨过那条线了。」
音频概览的魔法在于:它不是搜索关键词,而是「搜索有趣的东西」。后台提示词会让AI主持人从你的材料里找出最有意思的部分,用引人入胜的方式讲出来,配上比喻和细节。
Steven说:「两年前,电脑做不了这个——你没法让电脑搜索『有趣』,或者让它『把这个讲得更有意思』。」
功能上线后,Discord服务器从几百人暴涨到6.5万。有个用户上传了自己的日记,生成音频后发视频:「这是我的日记,我太熟悉了,但AI把它变成了这个……」
Raiza看到那条视频时说:「这就是为什么它能打动这么多人——不是随便找个东西Google一下,而是你自己的东西,你创造的内容,现在有了新的形式。」
三个轻步骤:产品哲学的其他支柱
除了音频概览,NotebookLM还有几个关键设计。
第一是强制上传来源。Steven和Raiza争论过很多次:要不要让用户直接跟模型聊天,不上传文档?最后决定不做。「如果你没上传来源,产品就不工作。这强迫用户理解:上传来源=创建个性化AI。」
第二是一键生成功能。这是Raiza最早的想法,Steven当时的反应是「我不需要,我想自己写」。Raiza说「但我想点一下就出来」。现在NotebookLM可以一键生成简报文档、FAQ、学习指南、目录——Raiza是对的。
第三是团队规模。2024年6月国际版发布时,全职工程师只有7个。Steven说:「按谷歌标准这太小了。你不能扔50个人进来,得线性成长。」所以现在最大的挑战是:在已经火爆的功能上继续投入,还是押注全新的方向?
理论升华:「邻近可能性」如何指导产品决策
想想你上次去超市买电钻——你不是在买电钻,你是在买墙上的那个洞。这是「Jobs to Be Done」理论的经典比喻。
NotebookLM的团队用类似的方式思考产品,但他们的框架是「邻近可能性」。
Steven解释:「我们现在最激烈的争论就是:要做的东西太多了,但团队还是相对小,我们该优先做什么?邻近可能性现在在NotebookLM这儿极其宽广——这是个好问题,但也确实是个问题。」
这意味着什么?意味着他们不是在问「用户想要什么功能」,而是在问「现在这扇门后面,哪些门可以打开了?哪些还打不开?」
Gemini 1.5的到来打开了引文、多模态、更长上下文的门。但有些门还关着,比如让AI真正理解你的工作风格、记住几个月前的对话上下文、或者主动建议下一步该做什么。
这些功能不是「不想做」,而是「门还没开」。团队在等下一个模型版本,就像2023年他们等Gemini 1.5一样。
局限性提醒:不是万能钥匙
NotebookLM不适合所有人。
如果你就是想假装懂某个东西,但实际上不想理解它——比如让AI生成报告,你连看都不看就发给老板——这个产品帮不了你。Steven说:「这招能用两天,第三天你老板跟你聊,你就露馅了。」
如果你需要的是通用知识问答,直接用Gemini或ChatGPT更快。NotebookLM的强项是「基于你的材料回答你的问题」,它不是搜索引擎,也不是百科全书。
还有一点:它现在不会帮你找材料。你得自己上传文档、PDF、网页、音频。对一些用户来说,这道门槛有点高。
余韵收尾
Gus在播客里说,他每天和12岁的女儿一起用NotebookLM学习世界各国的维基百科页面。他们做了个表格,已经听了几十个国家,还学了音乐乐器。他甚至把生成的音频传到YouTube。
Steven听完笑了,说:「我最早痴迷HyperCard那个学期,什么课程知识都没学到,但找到了一辈子要追的问题。」
Raiza说得更直白:「以后的小孩不会知道什么叫『提示词工程』。他们看历史会觉得,天哪,以前的人还得说『你是个专业的演讲稿撰写人』?太傻了。」
那份100页的幻灯片,Raiza后来听完了。Steven没做过幻灯片超过三页的。有些人注定用不同方式处理信息。
但现在,处理方式不再是限制。