凌晨两点,哈佛量子计算实验室的白板上写满了固态自旋的方程式。
几年后,同一个人坐在办公室里,听着一首从未存在过的歌——那是AI在毫秒之内凭空写出的,有人声,有鼓点,有他描述不出来但隐约熟悉的某种情绪。他突然明白,自己接下来要做的事,和量子力学其实没有任何矛盾。
Mikey Shulman,Suno的创始人兼CEO,哈佛量子计算博士。外人看来,这个履历组合荒谬得像在开玩笑。他自己也承认:「在简历上,我大概没有资格创立一家消费娱乐公司。」
但他做到了。Suno现在年营收超过3亿美元。
这件事原本不该发生。
时间倒回到ChatGPT出现之前。Mikey和联合创始人们坐在一起,用信封背面做了一个数学估算:要生成真正好听的音乐,需要多少算力?多大的模型?
结论很清晰:差了好几个数量级。太难了,暂时做不到。
所以他们没有选择做音乐。他们选择了「听懂」音乐——用同一套技术去理解音频,而不是生成它。方向更保守,胜算看起来更高。
然后,一个意外发生了。
研究过程中,他们撞上了几个关键的技术突破,发现原来不需要那么多算力。不是因为数学算错了——数学是对的,是现实给出了一条意想不到的捷径。「这是非常愉快的一次判断失误。不是所有的判断失误都这么令人愉快。」Mikey说。
他们开始生成音乐。那时候的音乐很糟糕,只能做12.5秒的片段,歌词经常答非所问,音质像在收音机里过了三层滤波。但他们自己停不下来。「我们熬夜玩这个,根本不想睡。这是一个非常好的信号——这就是你应该做的事。」
然后他们开了一个Discord机器人。
参照Midjourney的路径,把这个烂兮兮的早期版本扔给公众,看看会发生什么。
用户来了。用户爱上了它——哪怕音质很差,哪怕歌词逻辑混乱,哪怕只有12秒。这件事本身就是一个信号,比任何市场调研都有力:人们不是在忍受这个产品,人们是在享受它。
Suno真正诞生的时刻,不是融资的那天,不是产品上线的那天,是那群早期Discord用户熬夜创作到天亮的那个夜晚。
但Mikey做的最重要的决定,是一个「忘记」的决定。
如果你去问一个传统音乐AI团队,他们是怎么建模的,十有八九会告诉你:西方音乐有12个音,有几百种乐器,有和声规则,有节奏结构——把这些知识喂进模型,让模型学会规则。
Suno没有这么做。
「我们越早意识到,给模型的音乐知识越多,它就被限制得越死,」Mikey说,「如果你告诉模型只有12个音,它就永远只会产生这12个音。如果你告诉它世界上有200种乐器,那些就是它所有的声音。你永远不会从Suno这里得到下一个Skrillex。」
他们的解法是:彻底抛弃乐理知识,从零开始建模。把音乐还原成最底层的物理现实——一段声波,每秒采样48000次,每个采样点是一个连续的浮点数。模型不知道有「人声」,不知道有「吉他」,不知道有「鼓」。它只知道:这是一串数字,下一个数字应该是多少?
这条路极其难走。但一旦走通,结果是一台「完全通用的音乐生成机器」。
现在Suno能做出把Trap和西塔琴混在一起的东西,能做出带有808鼓组的乡村音乐,能做出微分音音乐——那些在传统乐理框架里根本不应该存在的音乐类型,在这里随手就能出现。
「你唯一受到的限制,是你的描述能力和你的想象力。」
一个量子计算背景的人,为什么能想到这个?
Mikey有一个答案,但他说得很谦虚:「我只是一个还算过得去的物理学家,比我厉害的多了去了。」
但他提到了一件事,听起来像是他真正的核心认知:「在两个通常不搭的领域的交叉点上玩,在任何领域都是巨大的机会。可以是音乐和技术,可以是量子力学和低温微波工程,可以是任何你选择的东西。」
物理训练给了他一种本能:先做估算,判断可行性,再决定要不要动手。他的第一次估算告诉他音乐太难。结果技术突破改变了参数。这不是他的失败,而是他的系统在正常运作——输入变了,输出自然变了。
他在上一家公司Kensho做过类似的事。那是一个以人才密度著称的创业公司,背景非传统、年龄偏年轻。他的联合创始人之一Daniel Nadler被他称为「人才密度能做什么的最好教材」。Kensho系的人后来散布在整个AI创业圈,形成了一种松散但真实的「黑帮」效应——Harrison Chase(LangChain创始人)就是其中一个,也是Suno最早的Discord用户之一。
然后是一个更深的问题:音乐民主化之后,音乐还是音乐吗?
Suno上,90%的用户在任意一天都会「创作」些什么。不是消费,是创作。
这个数字很反常。在Suno之前,地球上80亿人里真正在创作音乐的,是一个小到可以忽略的比例。其余所有人都是消费者,被动接收着别人做出来的东西。
「创作这件事本身,才是娱乐的那部分。」Mikey说,「人们不是为了把东西发布到哪里去。创作的满足感本身,就是目的。」
他类比了烹饪:人们喜欢做饭,哪怕餐厅的菜更好吃。因为做饭这件事本身是有趣的,吃自己做的东西也是有趣的。
他还类比了游戏:Suno和游戏的相似度,可能远高于和Spotify的相似度。游戏抓住你的注意力,调动你的大脑,让你主动参与。这才是Suno想做的事,不是一个更好的音乐播放器,而是一种新的主动娱乐形态。
这对「刷手机一小时」的感受截然不同。刷完你觉得空洞。创作完你觉得充实。
Mikey说他小时候最美好的记忆之一,是和朋友在地下室排练乐队。不是演出,是排练本身。「你和人一起做音乐,会非常亲近。因为那种感觉真的很好——以一种刷你最爱的APP一小时绝对不会有的方式。」
但质量天花板呢?
AI音乐有一个不那么性感但非常重要的特性:它不像大语言模型,规模不是解药。
「人们经常把LLM的经验带进来,以为堆算力就能解决问题,」Mikey说,「但音乐没有标准答案,没有基准测试。你和我对同一首歌的评价不会一致。这是一个更混乱的问题——把模型对齐到人类的创意品味上,比对齐到一个有正确答案的任务难得多。」
所以Suno的进步来自两个地方:研究,和用户偏好数据。
用户偏好数据是关键。没有足够大规模的偏好数据,他们甚至没办法开展某些研究。产品被使用本身,就在反哺模型的迭代——这是一个真实的良性循环,不是PPT上的说辞。
模型反而做得不大。因为够小,生成速度才够快;速度够快,用户体验才够好。这是一个刻意的选择,不是技术限制。
他们还有一个刻意的发布节奏:固定周期推出新版本,而不是等到「完美」。「你绝对不想让我们憋着两年不发布,然后说我们要做出拯救全人类的音乐模型,两年后见。」
现在Suno在干嘛?
有一个Suno用户的例子,Mikey反复提到,让他觉得「这就是天花板在升高的样子」。
那是一位笔名叫「I am on A」的诗人。她写了十年诗,有一整个诗歌世界,但听众很有限。然后她开始用Suno把诗变成歌。找到了全新的声音,找到了全新的听众,找到了和她的艺术共鸣的人。
「最好的音乐永远需要人来引导,」他说,「因为音乐没有正确答案。你喜欢一首音乐,是因为它的声音,更是因为传递它的人。我们会找到新的传递者,找到新的声音。我们已经在找到了。」
这也许是他对「AI会取代音乐吗」这个问题最好的回答。
不是AI取代人,是AI让更多人有机会成为那个「传递者」。
那个凌晨两点在白板前推导量子方程式的博士生,当时大概想不到,他最终做的事是把音乐还给了所有人。
