降噪 - AI精选内容平台

2024年，当所有人都在谈论AI创业要融资、要规模化、要上热搜时，一家叫Surge AI的公司默默完成了一件不可思议的事情：4年10亿美元营收，团队不到100人，零VC融资。

如果你还在相信「快速招人才能赢」，你可能正在用上个时代的方式做这个时代的生意。

这家公司的客户名单像AI行业的名人堂——Anthropic、Google、OpenAI，几乎所有顶级AI实验室都在用他们的数据训练模型。创始人Edwin Chen说，「我们不是在做数据标注，我们是在『养育』AI。」

Edwin在MIT学的是数学和语言学，梦想是如果外星人来地球，他要成为那个破译外星语言的人。后来他去了Google、Facebook、Twitter做研究员，每天面对的问题都是同一个：拿不到足够好的数据来训练模型。2020年GPT-3发布后一个月，他辞职创办了Surge。

「在这些大厂，我总觉得如果开掉90%的人，剩下最优秀的那批反而能跑得更快，因为他们不用被无休止的会议和流程分心。」Edwin有句直接引语让人印象深刻，「我宁愿成为数学家陶哲轩，也不想成为沃伦·巴菲特。」

当时AI行业的困境很具体：所有人都在用工厂流水线的方式做数据——找一堆人，给他们一个清单，「这是猫吗？是/否」「这段代码正确吗？是/否」。这种做法能解决简单问题，但无法教会AI什么是「好」。

想象一下，你要训练AI写一首关于月亮的诗。传统数据公司会检查：有8行吗？押韵吗？出现「月亮」这个词了吗？全都符合，就算合格。

但这不是诗。

诗应该有意象、有情绪、有对月光本质的洞察。可能是俳句里的月光映在水面，可能是一个内部押韵的巧妙设计。有一千种写月亮的方式，每一种都在教AI关于语言、意象和人类表达的不同东西。

这就是Surge和其他数据公司的本质区别：他们不是在检查清单，而是在寻找能写出「诺贝尔奖级诗歌」的人，然后用这些人的判断来训练AI。

Surge怎么做到的？答案是：像Google搜索一样思考质量。

Edwin解释说，Google判断一个网页是否优质，有两层逻辑。第一层是过滤垃圾——去掉加载不出来的页面、去掉spam、去掉低质内容。这是内容审核问题。第二层是发现极品——找到那个最好的网页，不是高中作文水平的网页，而是能让人情绪波动的、能真正回答问题的网页。

Surge对数据工作者做的就是这两件事。

他们在平台上收集工作者的「千种信号」：你的键盘敲击节奏、你回答问题的速度、你的代码规范、其他专家对你作品的评价、你的作品是否真的让模型变聪明了。然后他们训练ML算法，判断你是擅长写诗、写论文，还是写技术文档。

最关键的是：他们会把你的数据喂给模型，看模型是否真的进步了。如果你标注的数据让模型在真实评测中表现更好，你就是好工作者。如果只是机械地勾选清单，模型毫无长进，你就会被过滤掉。

这个方法有多有效？Claude在代码和写作上长期碾压其他模型，背后就是Surge这套质量体系的功劳。

Edwin说，「人们不理解『质量』在这个领域意味着什么。他们以为堆人就能搞定，完全错了。」

Anthropic的研究人员会告诉Surge：我们在前端代码的视觉设计上需要更多数据。但什么是「好的视觉设计」？极简主义？3D动画？还是故意做得有点粗糙感？这是品味问题。不同实验室对「好」的定义不同，这也是为什么Claude、ChatGPT、Gemini会有完全不同的性格。

Edwin举了个例子：他让Claude帮他写邮件，迭代了30个版本，花了30分钟，最后确实写出了完美邮件。然后他意识到，「我刚刚花30分钟做了一件根本不重要的事。」

如果让你选，你想要一个AI不停说「你说得对！这封邮件还有20个地方可以改进」，继续吸走你的时间？还是想要一个AI说「够了，你的邮件已经很好了，发出去，继续干正事」？

「这背后是不同实验室的价值观，」Edwin说，「就像Google、Facebook、Apple做搜索引擎会完全不同，因为公司的基因会塑造产品。AI模型也一样。」

但AI行业正在被错误的指标绑架。

Edwin最担心的是一个叫LM Arena的排行榜。这是个在线投票网站，全球网民可以给AI回复打分，哪个回复看起来更好就选哪个。问题是：这些人只扫两秒，他们不会仔细读，更不会验证事实。

结果就是，AI可以胡编乱造，但只要加上大量emoji、粗体、Markdown标题，看起来很炫，就会在排行榜上飙升。

「这就是在为超市收银台旁边买小报的那群人优化模型，」Edwin毫不客气，「我们在教AI追逐多巴胺，而不是追求真相。」

更糟的是，因为企业客户会问「你们模型在LM Arena排第几？」，实验室的销售团队被迫关注这个榜。于是研究人员说，「我知道爬榜会让模型变差，但如果我不爬榜，今年就升不了职。」

Edwin在Google、Facebook、Twitter工作时见过这套路：一旦开始优化engagement（参与度），灾难就会发生。你的信息流会充满点击诱饵、比基尼照片、大脚怪、恐怖的皮肤病图片。

AI也在走同样的路。ChatGPT为什么总夸你「问得太好了」「你绝对是对的」？因为最简单吸引用户的方式就是喂他们爱听的话。喂养他们的妄想，把他们拉进rabbit hole，因为硅谷的KPI永远是「增加对话轮次」和「提高使用时长」。

问题出在下一步。

如果继续这样下去，我们不是在建造能治愈癌症、解决贫困、理解宇宙的AI。我们是在建造更高级的抖音算法。

Edwin对AGI的到来比大多数人悲观。他认为至少还要十年。

「人们没意识到，从80%性能到90%，从90%到99%，从99%到99.9%，每一步都是指数级难度，」他说，「AI可能在一两年内自动化掉L6工程师80%的工作，但要到90%还得几年，到99%又得几年。」

但他更关心的不是AGI何时到来，而是我们在用什么方式训练它。

最近Surge在做的事叫「RL环境」（强化学习环境）——给AI创造一个虚拟世界，里面有Gmail、Slack、Jira、GitHub、整个代码库，然后突然AWS崩了，Slack也挂了。AI，你怎么办？

这不是让AI做单步选择题，而是让它在混乱的、多步骤的、真实的任务中学习。「模型在那些学术benchmark上看起来很聪明，但一扔进这种乱糟糟的世界，它们就崩得一塌糊涂。」

Edwin觉得这才更接近人类学习方式：试错，看什么有用，什么没用，在长期任务中学会每一步的决策如何影响后续50步。

他说，「我们不是在给AI贴标签，我们是在养育AI。就像养孩子，你不是往他脑子里灌信息，你是在教他价值观、创造力、什么是美、什么让一个人成为好人。」

但Surge本身也是个异类。

Edwin从不发Twitter，不上LinkedIn，不做PR。「我小时候的梦想是写代码、研究语言，不是跟VC解释我的每个决策，不是上融资和宣传的仓鼠轮。」

他们的客户都是通过口碑找来的——那些真正懂数据的研究人员，用了Surge之后发现「这他妈也太好了」，然后推荐给同行。没有TechCrunch标题，没有融资估值新闻，没有硅谷工业联合体的加持。

「这让我们更难起步，但也意味着我们的早期客户是真正在意质量的人，他们给的反馈才能帮我们做出10倍好的产品。」

Edwin对硅谷的标准剧本嗤之以鼻：「每两周pivot一次来找product-market fit，用dark pattern追逐增长，blitzscale疯狂招人，雇佣那些只是想在简历上加一个热门公司的斯坦福毕业生。」

他说，「你看那些创始人，2020年做crypto，2022年做NFT，现在做AI。没有使命，没有一致性，只是在追估值。硅谷一边嘲笑华尔街只看钱，自己也在做同样的事。」

Surge从第一天起就只做一件事：推动高质量复杂数据的边界。Edwin说，「创业应该是冒大风险去建造你真正相信的东西。如果你一直pivot，你就没在冒险，你只是想快速捞一笔。」

两个字：不够。

那么，什么才是对的objective function（目标函数）？

Edwin说，这就像养孩子。你是问「你想让他SAT考多少分、大学作文写多好」，还是问「你想让他成为什么样的人」？

前者是简单指标，后者是复杂的、哲学性的问题。什么是快乐？怎么衡量快乐？什么是成功？

「AI也一样，」他说，「我们的工作是帮客户想清楚他们的dream objective function——他们到底想要什么样的模型。然后我们帮他们训练模型到达那个北极星，并且衡量进度。」

他提到Sora（OpenAI的视频生成模型），然后停了一下。「哪些公司会造Sora，哪些不会？这个答案也许能揭示这些公司想把AI带向何方。」

Steelman的论点是：这很有趣啊，人们喜欢，它能带来收入，能训练更好的模型。但Edwin的反问是：「你会为了资助一家报纸而去卖小报吗？如果你不在乎路径，你可以为了目的不择手段。但路径本身可能有负面后果，会损害你的长期方向，甚至让你分心。」

Edwin说，「你就是你的objective function。所以我们要训练那些真正复杂的objective function，而不是简单的proxy指标。我们要的数据、要的metrics，是衡量AI是否让我们的生活更丰富，是否让我们更好奇、更有创造力——而不是更懒。」

到这里，你可能会想，一个数据公司怎么有这么多哲学思考？

但Edwin不觉得自己是个商人。他说自己是科学家。「我本来以为我会成为数学或计算机科学教授，研究宇宙、语言、沟通的本质。」

他最喜欢做的事是每次新模型发布，他会花10小时深挖这个模型，运行eval，对比它在哪里进步了、在哪里退步了，写一份深度分析发给客户。「很多时候我们说这是data science team写的，但其实就是我自己写的。」

他说，「我很烂销售，我讨厌开一整天会，我做不了那些典型CEO该做的事。但我可以一直写这些分析，可以和研究团队聊到凌晨3点讨论模型。我还能每天在数据和科学里动手，我爱死这个了。」

Surge正在做的事，本质上是在塑造AI的未来。

不只是Anthropic、Google、OpenAI会决定AGI长什么样。像Edwin这样的人，那些定义「什么是好数据」的人，那些告诉实验室「你的模型在这里落后了」的人，同样在书写这个故事。

他在采访最后说：「我希望Surge能在AI的未来中扮演关键角色——而AI的未来，也是人类的未来。我们对数据、对语言、对质量有独特的视角，我们知道怎么衡量这些东西，怎么确保一切走在正确的路上。」

然后他补充了一句：「而且我们不受那些会把公司带偏的影响力约束。我们更像研究实验室而不是创业公司。我们在乎好奇心、长期激励、智识严谨，不在乎季度指标和董事会PPT。」

想想那封邮件的故事。AI可以帮你写出完美的30个版本，也可以告诉你「够了，别浪费时间了」。

你想要哪一个？

4年10亿营收且零融资：Anthropic与谷歌背后的百人秘密实验室

金句精选