降噪 - AI精选内容平台

你是不是觉得，AI要变强，靠的就是海量数据和更大算力？但如果告诉你，未来的AI，真正的护城河可能是「用更少的数据，做更聪明的事」，你会不会觉得有点反直觉？

在旧金山的一间实验室里，兄弟二人Ben与Asher，带着第三位创始人Aiden Smith，正试图用他们的Flappy Airplanes（其实是一家AI实验室，不是飞机公司）颠覆这个行业的常识。他们提出了一个令人深思的问题：我们真的需要如此庞大的数据，才能让AI强大吗？还是说，未来的关键在于——「数据效率」？

一、为什么数据效率决定AI的未来？

我们先回顾下今天AI的主战场。搜索和代码生成，是两大明星应用。它们之所以成功，归因于可获得的数据量极其庞大。搜索，几乎等于整个互联网；代码，也是互联网上极易收集和合成的黄金类型。对AI模型来说，这些领域简直是「数据富矿」，随便挖都能有收获。

但问题来了。放眼更广阔的经济版图，绝大多数领域其实并不富裕于数据。比如，机器人学、金融交易、科学发现，甚至一台普通烤面包机的全流程供应链——这些环节的数据都极为稀缺。要么获取成本高昂，要么根本不存在大规模公开数据集。

Ben这样总结：「人类成为优秀程序员，所见代码数据量，可能只有大模型万分之一，甚至十万分之一。」换句话说，AI今天的进步，很大程度上是消费了极少数「富矿」领域的资源，但广阔世界根本不是这样。

如果我们只会「用数据填鸭」来提升AI能力，未来的AI就只能停留在少数几个领域。整个经济体的数字化、智能化，将被数据天花板牢牢限制。

二、算力扩张容易，数据集扩张难

你可能会想，那就想办法收集更多数据呗。可惜，局限远不是这样容易突破。

Asher一针见血地指出：算力的扩展，历史上一直呈指数级下跌——买更多GPU，价格会持续下降，供应链也相对集中统一。但数据呢？高质量原创数据的增长速度，远远赶不上算力。尤其是「边缘任务」「长尾需求」的数据，分散、受限、涉及各种合规和商业壁垒。

「算力市场相对同质化，而数据市场极度分散且受限。」他们举例道，GPT问世后，顶级AI公司抢购算力，尚且能一手包圆。但要想获得全行业的异构数据，你得和无数企业、机构谈判，甚至有人会去收购破产书店，只为获得那些藏在角落里的稀有数据。

更有甚者，一旦数据成为AI模型的「护城河」，巨头垄断只会加剧。创业公司想参与AI革命，根本难以迈过数据的门槛。正如行业调研所示，业界普遍认为「数据」才是AI的最大壁垒。可如果我们能让模型「更省数据」——数据效率提升一千倍，部署难度也会随之降低一千倍，整个生态的参与门槛才有可能真正下降。

三、数据效率的哲学意义：让更多人参与AI革命

更深层的影响在于：数据效率决定了AI技术扩散的广度和深度。

Asher谈到，很多新创公司，别说买不到最好的GPU，连行业数据都难以获得。某些企业为了训练前沿模型，甚至不惜收购老旧书店，把尘封书籍全数数字化，只为那点独特的训练素材。这种现象说明，数据的垄断正在悄然上演。

如果未来AI模型能以更高的数据效率成长，数据壁垒降低，不仅科技巨头，普通企业、草根创新团队都能参与到AI浪潮。数据效率，实际上决定了整个社会谁能在AI经济中分一杯羹。

四、突破瓶颈：从新硬件原语寻找机会

说到这里，你或许会问：数据效率怎么提升？难道光靠算法优化就够了吗？

兄弟俩的回答很有意思。他们并未详细公开自家核心算法（毕竟是公司的命脉），但分享了一个关键思路：「要想获得全新能力，应该去探索硬件能做，但现有AI框架无法高效表达的新原语。」

什么意思？当前主流的深度学习框架（如PyTorch），虽然用起来很顺手——比如，只需写几行matmul、attention、RMSNorm代码，系统就能自动把任务分发到高度并行的GPU上。然而，这种「单线程抽象」的便利，实际封印了很多硬件的新玩法。

Ben举例，他们内部用一套基于虚拟机的自研框架，能直接接管GPU，以极为细粒度的方式调度资源。例如，他们能实现小批量、深度流水线、hogwild风格的训练模式——这些在PyTorch等通用框架里要么极其低效，要么根本做不到。

这一点意义非凡。历史上，AI领域每一次大突破，往往都伴随着底层硬件原语的创造性利用。不是一定要造新芯片，而是要用新的系统范式，把现有硬件的潜力榨干。正如Ben在他博士期间所做的「mega kernel」研究，最早就是试图让GPU做那些「反常规」的事情。

当你能用硬件的新原语实现前所未有的算法，数据效率的极限才有可能被突破。很多在标准框架下根本不可行的算法，一旦获得合适的系统支持，便能成为现实。

五、硬件与算法的协同共进

系统与算法，其实是一对「共生体」。只有当底层硬件的使用被彻底解放，算法设计者才能想象更多可能性。Ben强调：「我们关注的，是系统与算法的协同优化。很多与数据效率相关的新算法，只有在新系统支持下才能诞生。」

比如，他们内部展示的一个案例，是在PyTorch下「渐进式不可能高效」的小批量深度流水线训练。借助自有框架，这类训练模式变得可能，也为数据效率的提升打开了新的空间。

这也是为什么，他们会建议对硬件感兴趣的工程师多去「折腾」GPU，而不是仅仅用现成的框架。毕竟，创新往往诞生于系统层的突破。

六、数据效率的未来：人人可参与的AI生态？

最后，兄弟俩抛出一个开放性问题：如果AI模型能以更高的数据效率成长，会是怎样的世界？

他们的设想充满期待：数据的壁垒不再高不可攀，AI创新不再只属于巨头。无论你来自何种背景，只要有创意，都能在AI生态中闯出一片天地。正如他们从孵化器和实验室中看到的那样，「有创造力和非传统背景的人，其实最有可能改变世界」。

「如果你对这些探索感兴趣，欢迎随时来找我们聊聊。」这是他们的邀请，也是对AI未来的憧憬。

七、结语：AI的下一个拐点

回到开头的问题：AI的未来，真的只是「谁有数据谁称王」吗？

也许不然。真正的拐点，可能来自那些敢于挑战数据极限、敢于折腾硬件边界的人。他们相信，只有让AI变得更「省数据」、更灵活，才会有下一个百倍、千倍的突破。

烤面包机的供应链、科学实验的边角料、长尾领域的微观数据……这些「数据贫瘠地」上，或许才孕育着AI的下一个奇迹。

别再只盯着数据高地。AI的未来，在于数据效率的革命。

数据才是AI真正瓶颈？这对兄弟想用「数据效率革命」打破行业垄断