你是不是觉得,AI要变强,靠的就是海量数据和更大算力?但如果告诉你,未来的AI,真正的护城河可能是「用更少的数据,做更聪明的事」,你会不会觉得有点反直觉?
在旧金山的一间实验室里,兄弟二人Ben与Asher,带着第三位创始人Aiden Smith,正试图用他们的Flappy Airplanes(其实是一家AI实验室,不是飞机公司)颠覆这个行业的常识。他们提出了一个令人深思的问题:我们真的需要如此庞大的数据,才能让AI强大吗?还是说,未来的关键在于——「数据效率」?
一、为什么数据效率决定AI的未来?
我们先回顾下今天AI的主战场。搜索和代码生成,是两大明星应用。它们之所以成功,归因于可获得的数据量极其庞大。搜索,几乎等于整个互联网;代码,也是互联网上极易收集和合成的黄金类型。对AI模型来说,这些领域简直是「数据富矿」,随便挖都能有收获。
但问题来了。放眼更广阔的经济版图,绝大多数领域其实并不富裕于数据。比如,机器人学、金融交易、科学发现,甚至一台普通烤面包机的全流程供应链——这些环节的数据都极为稀缺。要么获取成本高昂,要么根本不存在大规模公开数据集。
Ben这样总结:「人类成为优秀程序员,所见代码数据量,可能只有大模型万分之一,甚至十万分之一。」换句话说,AI今天的进步,很大程度上是消费了极少数「富矿」领域的资源,但广阔世界根本不是这样。
如果我们只会「用数据填鸭」来提升AI能力,未来的AI就只能停留在少数几个领域。整个经济体的数字化、智能化,将被数据天花板牢牢限制。
二、算力扩张容易,数据集扩张难
你可能会想,那就想办法收集更多数据呗。可惜,局限远不是这样容易突破。
Asher一针见血地指出:算力的扩展,历史上一直呈指数级下跌——买更多GPU,价格会持续下降,供应链也相对集中统一。但数据呢?高质量原创数据的增长速度,远远赶不上算力。尤其是「边缘任务」「长尾需求」的数据,分散、受限、涉及各种合规和商业壁垒。
「算力市场相对同质化,而数据市场极度分散且受限。」他们举例道,GPT问世后,顶级AI公司抢购算力,尚且能一手包圆。但要想获得全行业的异构数据,你得和无数企业、机构谈判,甚至有人会去收购破产书店,只为获得那些藏在角落里的稀有数据。
更有甚者,一旦数据成为AI模型的「护城河」,巨头垄断只会加剧。创业公司想参与AI革命,根本难以迈过数据的门槛。正如行业调研所示,业界普遍认为「数据」才是AI的最大壁垒。可如果我们能让模型「更省数据」——数据效率提升一千倍,部署难度也会随之降低一千倍,整个生态的参与门槛才有可能真正下降。
三、数据效率的哲学意义:让更多人参与AI革命
更深层的影响在于:数据效率决定了AI技术扩散的广度和深度。
Asher谈到,很多新创公司,别说买不到最好的GPU,连行业数据都难以获得。某些企业为了训练前沿模型,甚至不惜收购老旧书店,把尘封书籍全数数字化,只为那点独特的训练素材。这种现象说明,数据的垄断正在悄然上演。
如果未来AI模型能以更高的数据效率成长,数据壁垒降低,不仅科技巨头,普通企业、草根创新团队都能参与到AI浪潮。数据效率,实际上决定了整个社会谁能在AI经济中分一杯羹。
四、突破瓶颈:从新硬件原语寻找机会
说到这里,你或许会问:数据效率怎么提升?难道光靠算法优化就够了吗?
兄弟俩的回答很有意思。他们并未详细公开自家核心算法(毕竟是公司的命脉),但分享了一个关键思路:「要想获得全新能力,应该去探索硬件能做,但现有AI框架无法高效表达的新原语。」
什么意思?当前主流的深度学习框架(如PyTorch),虽然用起来很顺手——比如,只需写几行matmul、attention、RMSNorm代码,系统就能自动把任务分发到高度并行的GPU上。然而,这种「单线程抽象」的便利,实际封印了很多硬件的新玩法。
Ben举例,他们内部用一套基于虚拟机的自研框架,能直接接管GPU,以极为细粒度的方式调度资源。例如,他们能实现小批量、深度流水线、hogwild风格的训练模式——这些在PyTorch等通用框架里要么极其低效,要么根本做不到。
这一点意义非凡。历史上,AI领域每一次大突破,往往都伴随着底层硬件原语的创造性利用。不是一定要造新芯片,而是要用新的系统范式,把现有硬件的潜力榨干。正如Ben在他博士期间所做的「mega kernel」研究,最早就是试图让GPU做那些「反常规」的事情。
当你能用硬件的新原语实现前所未有的算法,数据效率的极限才有可能被突破。很多在标准框架下根本不可行的算法,一旦获得合适的系统支持,便能成为现实。
五、硬件与算法的协同共进
系统与算法,其实是一对「共生体」。只有当底层硬件的使用被彻底解放,算法设计者才能想象更多可能性。Ben强调:「我们关注的,是系统与算法的协同优化。很多与数据效率相关的新算法,只有在新系统支持下才能诞生。」
比如,他们内部展示的一个案例,是在PyTorch下「渐进式不可能高效」的小批量深度流水线训练。借助自有框架,这类训练模式变得可能,也为数据效率的提升打开了新的空间。
这也是为什么,他们会建议对硬件感兴趣的工程师多去「折腾」GPU,而不是仅仅用现成的框架。毕竟,创新往往诞生于系统层的突破。
六、数据效率的未来:人人可参与的AI生态?
最后,兄弟俩抛出一个开放性问题:如果AI模型能以更高的数据效率成长,会是怎样的世界?
他们的设想充满期待:数据的壁垒不再高不可攀,AI创新不再只属于巨头。无论你来自何种背景,只要有创意,都能在AI生态中闯出一片天地。正如他们从孵化器和实验室中看到的那样,「有创造力和非传统背景的人,其实最有可能改变世界」。
「如果你对这些探索感兴趣,欢迎随时来找我们聊聊。」这是他们的邀请,也是对AI未来的憧憬。
七、结语:AI的下一个拐点
回到开头的问题:AI的未来,真的只是「谁有数据谁称王」吗?
也许不然。真正的拐点,可能来自那些敢于挑战数据极限、敢于折腾硬件边界的人。他们相信,只有让AI变得更「省数据」、更灵活,才会有下一个百倍、千倍的突破。
烤面包机的供应链、科学实验的边角料、长尾领域的微观数据……这些「数据贫瘠地」上,或许才孕育着AI的下一个奇迹。
别再只盯着数据高地。AI的未来,在于数据效率的革命。
