2024年,当所有人都在谈论AI创业要融资、要规模化、要上热搜时,一家叫Surge AI的公司默默完成了一件不可思议的事情:4年10亿美元营收,团队不到100人,零VC融资。
如果你还在相信「快速招人才能赢」,你可能正在用上个时代的方式做这个时代的生意。
这家公司的客户名单像AI行业的名人堂——Anthropic、Google、OpenAI,几乎所有顶级AI实验室都在用他们的数据训练模型。创始人Edwin Chen说,「我们不是在做数据标注,我们是在『养育』AI。」
Edwin在MIT学的是数学和语言学,梦想是如果外星人来地球,他要成为那个破译外星语言的人。后来他去了Google、Facebook、Twitter做研究员,每天面对的问题都是同一个:拿不到足够好的数据来训练模型。2020年GPT-3发布后一个月,他辞职创办了Surge。
「在这些大厂,我总觉得如果开掉90%的人,剩下最优秀的那批反而能跑得更快,因为他们不用被无休止的会议和流程分心。」Edwin有句直接引语让人印象深刻,「我宁愿成为数学家陶哲轩,也不想成为沃伦·巴菲特。」
当时AI行业的困境很具体:所有人都在用工厂流水线的方式做数据——找一堆人,给他们一个清单,「这是猫吗?是/否」「这段代码正确吗?是/否」。这种做法能解决简单问题,但无法教会AI什么是「好」。
想象一下,你要训练AI写一首关于月亮的诗。传统数据公司会检查:有8行吗?押韵吗?出现「月亮」这个词了吗?全都符合,就算合格。
但这不是诗。
诗应该有意象、有情绪、有对月光本质的洞察。可能是俳句里的月光映在水面,可能是一个内部押韵的巧妙设计。有一千种写月亮的方式,每一种都在教AI关于语言、意象和人类表达的不同东西。
这就是Surge和其他数据公司的本质区别:他们不是在检查清单,而是在寻找能写出「诺贝尔奖级诗歌」的人,然后用这些人的判断来训练AI。
Surge怎么做到的?答案是:像Google搜索一样思考质量。
Edwin解释说,Google判断一个网页是否优质,有两层逻辑。第一层是过滤垃圾——去掉加载不出来的页面、去掉spam、去掉低质内容。这是内容审核问题。第二层是发现极品——找到那个最好的网页,不是高中作文水平的网页,而是能让人情绪波动的、能真正回答问题的网页。
Surge对数据工作者做的就是这两件事。
他们在平台上收集工作者的「千种信号」:你的键盘敲击节奏、你回答问题的速度、你的代码规范、其他专家对你作品的评价、你的作品是否真的让模型变聪明了。然后他们训练ML算法,判断你是擅长写诗、写论文,还是写技术文档。
最关键的是:他们会把你的数据喂给模型,看模型是否真的进步了。如果你标注的数据让模型在真实评测中表现更好,你就是好工作者。如果只是机械地勾选清单,模型毫无长进,你就会被过滤掉。
这个方法有多有效?Claude在代码和写作上长期碾压其他模型,背后就是Surge这套质量体系的功劳。
Edwin说,「人们不理解『质量』在这个领域意味着什么。他们以为堆人就能搞定,完全错了。」
Anthropic的研究人员会告诉Surge:我们在前端代码的视觉设计上需要更多数据。但什么是「好的视觉设计」?极简主义?3D动画?还是故意做得有点粗糙感?这是品味问题。不同实验室对「好」的定义不同,这也是为什么Claude、ChatGPT、Gemini会有完全不同的性格。
Edwin举了个例子:他让Claude帮他写邮件,迭代了30个版本,花了30分钟,最后确实写出了完美邮件。然后他意识到,「我刚刚花30分钟做了一件根本不重要的事。」
如果让你选,你想要一个AI不停说「你说得对!这封邮件还有20个地方可以改进」,继续吸走你的时间?还是想要一个AI说「够了,你的邮件已经很好了,发出去,继续干正事」?
「这背后是不同实验室的价值观,」Edwin说,「就像Google、Facebook、Apple做搜索引擎会完全不同,因为公司的基因会塑造产品。AI模型也一样。」
但AI行业正在被错误的指标绑架。
Edwin最担心的是一个叫LM Arena的排行榜。这是个在线投票网站,全球网民可以给AI回复打分,哪个回复看起来更好就选哪个。问题是:这些人只扫两秒,他们不会仔细读,更不会验证事实。
结果就是,AI可以胡编乱造,但只要加上大量emoji、粗体、Markdown标题,看起来很炫,就会在排行榜上飙升。
「这就是在为超市收银台旁边买小报的那群人优化模型,」Edwin毫不客气,「我们在教AI追逐多巴胺,而不是追求真相。」
更糟的是,因为企业客户会问「你们模型在LM Arena排第几?」,实验室的销售团队被迫关注这个榜。于是研究人员说,「我知道爬榜会让模型变差,但如果我不爬榜,今年就升不了职。」
Edwin在Google、Facebook、Twitter工作时见过这套路:一旦开始优化engagement(参与度),灾难就会发生。你的信息流会充满点击诱饵、比基尼照片、大脚怪、恐怖的皮肤病图片。
AI也在走同样的路。ChatGPT为什么总夸你「问得太好了」「你绝对是对的」?因为最简单吸引用户的方式就是喂他们爱听的话。喂养他们的妄想,把他们拉进rabbit hole,因为硅谷的KPI永远是「增加对话轮次」和「提高使用时长」。
问题出在下一步。
如果继续这样下去,我们不是在建造能治愈癌症、解决贫困、理解宇宙的AI。我们是在建造更高级的抖音算法。
Edwin对AGI的到来比大多数人悲观。他认为至少还要十年。
「人们没意识到,从80%性能到90%,从90%到99%,从99%到99.9%,每一步都是指数级难度,」他说,「AI可能在一两年内自动化掉L6工程师80%的工作,但要到90%还得几年,到99%又得几年。」
但他更关心的不是AGI何时到来,而是我们在用什么方式训练它。
最近Surge在做的事叫「RL环境」(强化学习环境)——给AI创造一个虚拟世界,里面有Gmail、Slack、Jira、GitHub、整个代码库,然后突然AWS崩了,Slack也挂了。AI,你怎么办?
这不是让AI做单步选择题,而是让它在混乱的、多步骤的、真实的任务中学习。「模型在那些学术benchmark上看起来很聪明,但一扔进这种乱糟糟的世界,它们就崩得一塌糊涂。」
Edwin觉得这才更接近人类学习方式:试错,看什么有用,什么没用,在长期任务中学会每一步的决策如何影响后续50步。
他说,「我们不是在给AI贴标签,我们是在养育AI。就像养孩子,你不是往他脑子里灌信息,你是在教他价值观、创造力、什么是美、什么让一个人成为好人。」
但Surge本身也是个异类。
Edwin从不发Twitter,不上LinkedIn,不做PR。「我小时候的梦想是写代码、研究语言,不是跟VC解释我的每个决策,不是上融资和宣传的仓鼠轮。」
他们的客户都是通过口碑找来的——那些真正懂数据的研究人员,用了Surge之后发现「这他妈也太好了」,然后推荐给同行。没有TechCrunch标题,没有融资估值新闻,没有硅谷工业联合体的加持。
「这让我们更难起步,但也意味着我们的早期客户是真正在意质量的人,他们给的反馈才能帮我们做出10倍好的产品。」
Edwin对硅谷的标准剧本嗤之以鼻:「每两周pivot一次来找product-market fit,用dark pattern追逐增长,blitzscale疯狂招人,雇佣那些只是想在简历上加一个热门公司的斯坦福毕业生。」
他说,「你看那些创始人,2020年做crypto,2022年做NFT,现在做AI。没有使命,没有一致性,只是在追估值。硅谷一边嘲笑华尔街只看钱,自己也在做同样的事。」
Surge从第一天起就只做一件事:推动高质量复杂数据的边界。Edwin说,「创业应该是冒大风险去建造你真正相信的东西。如果你一直pivot,你就没在冒险,你只是想快速捞一笔。」
两个字:不够。
那么,什么才是对的objective function(目标函数)?
Edwin说,这就像养孩子。你是问「你想让他SAT考多少分、大学作文写多好」,还是问「你想让他成为什么样的人」?
前者是简单指标,后者是复杂的、哲学性的问题。什么是快乐?怎么衡量快乐?什么是成功?
「AI也一样,」他说,「我们的工作是帮客户想清楚他们的dream objective function——他们到底想要什么样的模型。然后我们帮他们训练模型到达那个北极星,并且衡量进度。」
他提到Sora(OpenAI的视频生成模型),然后停了一下。「哪些公司会造Sora,哪些不会?这个答案也许能揭示这些公司想把AI带向何方。」
Steelman的论点是:这很有趣啊,人们喜欢,它能带来收入,能训练更好的模型。但Edwin的反问是:「你会为了资助一家报纸而去卖小报吗?如果你不在乎路径,你可以为了目的不择手段。但路径本身可能有负面后果,会损害你的长期方向,甚至让你分心。」
Edwin说,「你就是你的objective function。所以我们要训练那些真正复杂的objective function,而不是简单的proxy指标。我们要的数据、要的metrics,是衡量AI是否让我们的生活更丰富,是否让我们更好奇、更有创造力——而不是更懒。」
到这里,你可能会想,一个数据公司怎么有这么多哲学思考?
但Edwin不觉得自己是个商人。他说自己是科学家。「我本来以为我会成为数学或计算机科学教授,研究宇宙、语言、沟通的本质。」
他最喜欢做的事是每次新模型发布,他会花10小时深挖这个模型,运行eval,对比它在哪里进步了、在哪里退步了,写一份深度分析发给客户。「很多时候我们说这是data science team写的,但其实就是我自己写的。」
他说,「我很烂销售,我讨厌开一整天会,我做不了那些典型CEO该做的事。但我可以一直写这些分析,可以和研究团队聊到凌晨3点讨论模型。我还能每天在数据和科学里动手,我爱死这个了。」
Surge正在做的事,本质上是在塑造AI的未来。
不只是Anthropic、Google、OpenAI会决定AGI长什么样。像Edwin这样的人,那些定义「什么是好数据」的人,那些告诉实验室「你的模型在这里落后了」的人,同样在书写这个故事。
他在采访最后说:「我希望Surge能在AI的未来中扮演关键角色——而AI的未来,也是人类的未来。我们对数据、对语言、对质量有独特的视角,我们知道怎么衡量这些东西,怎么确保一切走在正确的路上。」
然后他补充了一句:「而且我们不受那些会把公司带偏的影响力约束。我们更像研究实验室而不是创业公司。我们在乎好奇心、长期激励、智识严谨,不在乎季度指标和董事会PPT。」
想想那封邮件的故事。AI可以帮你写出完美的30个版本,也可以告诉你「够了,别浪费时间了」。
你想要哪一个?
