降噪 - AI精选内容平台

凌晨两点，哈佛量子计算实验室的白板上写满了固态自旋的方程式。

几年后，同一个人坐在办公室里，听着一首从未存在过的歌——那是AI在毫秒之内凭空写出的，有人声，有鼓点，有他描述不出来但隐约熟悉的某种情绪。他突然明白，自己接下来要做的事，和量子力学其实没有任何矛盾。

Mikey Shulman，Suno的创始人兼CEO，哈佛量子计算博士。外人看来，这个履历组合荒谬得像在开玩笑。他自己也承认：「在简历上，我大概没有资格创立一家消费娱乐公司。」

但他做到了。Suno现在年营收超过3亿美元。

这件事原本不该发生。

时间倒回到ChatGPT出现之前。Mikey和联合创始人们坐在一起，用信封背面做了一个数学估算：要生成真正好听的音乐，需要多少算力？多大的模型？

结论很清晰：差了好几个数量级。太难了，暂时做不到。

所以他们没有选择做音乐。他们选择了「听懂」音乐——用同一套技术去理解音频，而不是生成它。方向更保守，胜算看起来更高。

然后，一个意外发生了。

研究过程中，他们撞上了几个关键的技术突破，发现原来不需要那么多算力。不是因为数学算错了——数学是对的，是现实给出了一条意想不到的捷径。「这是非常愉快的一次判断失误。不是所有的判断失误都这么令人愉快。」Mikey说。

他们开始生成音乐。那时候的音乐很糟糕，只能做12.5秒的片段，歌词经常答非所问，音质像在收音机里过了三层滤波。但他们自己停不下来。「我们熬夜玩这个，根本不想睡。这是一个非常好的信号——这就是你应该做的事。」

然后他们开了一个Discord机器人。

参照Midjourney的路径，把这个烂兮兮的早期版本扔给公众，看看会发生什么。

用户来了。用户爱上了它——哪怕音质很差，哪怕歌词逻辑混乱，哪怕只有12秒。这件事本身就是一个信号，比任何市场调研都有力：人们不是在忍受这个产品，人们是在享受它。

Suno真正诞生的时刻，不是融资的那天，不是产品上线的那天，是那群早期Discord用户熬夜创作到天亮的那个夜晚。

但Mikey做的最重要的决定，是一个「忘记」的决定。

如果你去问一个传统音乐AI团队，他们是怎么建模的，十有八九会告诉你：西方音乐有12个音，有几百种乐器，有和声规则，有节奏结构——把这些知识喂进模型，让模型学会规则。

Suno没有这么做。

「我们越早意识到，给模型的音乐知识越多，它就被限制得越死，」Mikey说，「如果你告诉模型只有12个音，它就永远只会产生这12个音。如果你告诉它世界上有200种乐器，那些就是它所有的声音。你永远不会从Suno这里得到下一个Skrillex。」

他们的解法是：彻底抛弃乐理知识，从零开始建模。把音乐还原成最底层的物理现实——一段声波，每秒采样48000次，每个采样点是一个连续的浮点数。模型不知道有「人声」，不知道有「吉他」，不知道有「鼓」。它只知道：这是一串数字，下一个数字应该是多少？

这条路极其难走。但一旦走通，结果是一台「完全通用的音乐生成机器」。

现在Suno能做出把Trap和西塔琴混在一起的东西，能做出带有808鼓组的乡村音乐，能做出微分音音乐——那些在传统乐理框架里根本不应该存在的音乐类型，在这里随手就能出现。

「你唯一受到的限制，是你的描述能力和你的想象力。」

一个量子计算背景的人，为什么能想到这个？

Mikey有一个答案，但他说得很谦虚：「我只是一个还算过得去的物理学家，比我厉害的多了去了。」

但他提到了一件事，听起来像是他真正的核心认知：「在两个通常不搭的领域的交叉点上玩，在任何领域都是巨大的机会。可以是音乐和技术，可以是量子力学和低温微波工程，可以是任何你选择的东西。」

物理训练给了他一种本能：先做估算，判断可行性，再决定要不要动手。他的第一次估算告诉他音乐太难。结果技术突破改变了参数。这不是他的失败，而是他的系统在正常运作——输入变了，输出自然变了。

他在上一家公司Kensho做过类似的事。那是一个以人才密度著称的创业公司，背景非传统、年龄偏年轻。他的联合创始人之一Daniel Nadler被他称为「人才密度能做什么的最好教材」。Kensho系的人后来散布在整个AI创业圈，形成了一种松散但真实的「黑帮」效应——Harrison Chase（LangChain创始人）就是其中一个，也是Suno最早的Discord用户之一。

然后是一个更深的问题：音乐民主化之后，音乐还是音乐吗？

Suno上，90%的用户在任意一天都会「创作」些什么。不是消费，是创作。

这个数字很反常。在Suno之前，地球上80亿人里真正在创作音乐的，是一个小到可以忽略的比例。其余所有人都是消费者，被动接收着别人做出来的东西。

「创作这件事本身，才是娱乐的那部分。」Mikey说，「人们不是为了把东西发布到哪里去。创作的满足感本身，就是目的。」

他类比了烹饪：人们喜欢做饭，哪怕餐厅的菜更好吃。因为做饭这件事本身是有趣的，吃自己做的东西也是有趣的。

他还类比了游戏：Suno和游戏的相似度，可能远高于和Spotify的相似度。游戏抓住你的注意力，调动你的大脑，让你主动参与。这才是Suno想做的事，不是一个更好的音乐播放器，而是一种新的主动娱乐形态。

这对「刷手机一小时」的感受截然不同。刷完你觉得空洞。创作完你觉得充实。

Mikey说他小时候最美好的记忆之一，是和朋友在地下室排练乐队。不是演出，是排练本身。「你和人一起做音乐，会非常亲近。因为那种感觉真的很好——以一种刷你最爱的APP一小时绝对不会有的方式。」

但质量天花板呢？

AI音乐有一个不那么性感但非常重要的特性：它不像大语言模型，规模不是解药。

「人们经常把LLM的经验带进来，以为堆算力就能解决问题，」Mikey说，「但音乐没有标准答案，没有基准测试。你和我对同一首歌的评价不会一致。这是一个更混乱的问题——把模型对齐到人类的创意品味上，比对齐到一个有正确答案的任务难得多。」

所以Suno的进步来自两个地方：研究，和用户偏好数据。

用户偏好数据是关键。没有足够大规模的偏好数据，他们甚至没办法开展某些研究。产品被使用本身，就在反哺模型的迭代——这是一个真实的良性循环，不是PPT上的说辞。

模型反而做得不大。因为够小，生成速度才够快；速度够快，用户体验才够好。这是一个刻意的选择，不是技术限制。

他们还有一个刻意的发布节奏：固定周期推出新版本，而不是等到「完美」。「你绝对不想让我们憋着两年不发布，然后说我们要做出拯救全人类的音乐模型，两年后见。」

现在Suno在干嘛？

有一个Suno用户的例子，Mikey反复提到，让他觉得「这就是天花板在升高的样子」。

那是一位笔名叫「I am on A」的诗人。她写了十年诗，有一整个诗歌世界，但听众很有限。然后她开始用Suno把诗变成歌。找到了全新的声音，找到了全新的听众，找到了和她的艺术共鸣的人。

「最好的音乐永远需要人来引导，」他说，「因为音乐没有正确答案。你喜欢一首音乐，是因为它的声音，更是因为传递它的人。我们会找到新的传递者，找到新的声音。我们已经在找到了。」

这也许是他对「AI会取代音乐吗」这个问题最好的回答。

不是AI取代人，是AI让更多人有机会成为那个「传递者」。

那个凌晨两点在白板前推导量子方程式的博士生，当时大概想不到，他最终做的事是把音乐还给了所有人。

量子物理博士造了一台「忘掉所有音乐知识」的机器，现在全球90%的用户每天都在创作

金句精选