月之暗面首位离职创业者王冠:压缩即智能,与AI产品经理的十年
AI ProductsAI Organization

月之暗面首位离职创业者王冠:压缩即智能,与AI产品经理的十年

王冠
2025年12月18日小宇宙
返回首页

金句精选

有多少人工就有多少智能,这是AI的第一性原理

不要在诺基亚时代做App

生成系统的价值是Scale最强的人,不是Scale最多的人

从分销平台到产销平台,未来没有中间商赚差价

创作者不生产内容,生产方法

王冠在龙人居的那顿饭吃了三个多小时,从下午一直到餐厅打烊。对面的周星宇在黑板上画满了公式,全是关于「压缩」的数学推导。他一个字都没听懂,但大受震撼。

这是2023年3月,他刚从旷世离职,正在尝试第三次创业。前两次都踩在了OpenAI的迭代节奏上。第一次做基于GPT-3的写作助手,ChatGPT出现了。第二次做代码图表生成,GPT-4会写Python了。第三次做workflow编排工具,Plugin发布了。连续三次精准踩坑,让他意识到一个致命问题:不理解模型能力的边界,就是在虚无的地基上盖楼。

那顿饭之后一个月,他加入了月之暗面,成为公司第一个产品经理。


王冠的履历横跨AI的三个时代。2014年在百度做大数据时代的用户画像,那时候AI的核心是「拟合结构化数据」。2018年在旷世做CV时代的算法生产力工具,AI开始处理图像这种「半结构化」的东西。2020年接触到GPT-3,第一次看到模型可以「拟合非结构化数据」。

这个转变对他来说是质变。「结构化数据只能表达离散的点,非结构化数据才能表达连续的世界。」他说话时习惯把抽象概念掰碎,像在给一个初学者讲课。「你做CV算法的时候要给每张图打标签,这些标签是确定的。但语言不是,一句话可以有无数种说法,但意思是连续的。」

但真正让他想明白「AI产品该怎么做」的,是月之暗面那一年。


2023年的月之暗面还没有「六小龙」的说法,公司刚成立三个月。王冠记得最清楚的是工作状态:「你可以完全基于自己对问题的理解去做事,到最后会发现,你做的东西在其他人那里能连上。」没有对齐会议,没有拉通流程。聪明人的默契让组织消耗降到最低。

他在那里待了不到一年,做的核心工作是「设计模型能力」。不是训练模型,而是定义「这个模型应该具备什么效果,这些效果如何被用户感知,如何通过数据训练出来。」

这段经历让他推演出三个关键问题的答案:

第一,模型能力来自哪里? 数据。「有多少人工就有多少智能」这句自嘲的话,是AI行业的第一性原理。模型能力的边界由数据决定,算力决定你逼近边界的速度,算法决定你能突破边界多少。

第二,模型会怎么发展? 他把行业分成三个阶段。第一阶段是「公域数据」,大家都在互联网上爬数据,拼的是算力和决策速度。第二阶段是「私域数据」,大厂用自己的业务数据训练,形成差异化。第三阶段是「内生数据」——这是应用公司的机会。

第三,你的产品和模型是什么关系? 设计一份「之前不存在的数据」。ChatGPT在出现之前,历史上没有一份数据是「用自然对话解决各种奇怪问题」。这份数据是产品形态带来的,也是壁垒所在。

这三个答案让他在2024年初离职。他成为月之暗面第一个离开的产品经理。公司的离职流程从他那时候开始建立。


但从哪里切入?

他选了视频。不是因为技术成熟——2024年初,Sora和Veo都还没出现。而是因为三个推演:

商业价值足够大。 美国市场上有20-30家视频SaaS,年收入都能做到几千万美金。视频的单位价值比文字高,这是蚂蚁市场的特征:任何单点能力做好,都能赚钱。

技术上可以设计成封闭域。 视频处理的本质是「原子能力的时间排序」。一个特效是原子能力,一个转场是原子能力,制作过程就是这些能力的组合。这意味着可以用DSL(领域专用语言)来精确描述「一个视频是什么样,如何被制作出来」。

未来会比图片和文字更重要。 互联网时代的模态演进是:文字→图片→音频→视频。为什么?因为生产门槛决定了普及顺序。但AI时代会拉平不同模态的生产难度,这时候一定是价值更高的模态占据统治地位。「视频是AI时代内容的起点,未来只会出现比视频更高维度的东西,比如软件,比如游戏。」

这让他的第一步不是设计软件界面,而是设计一套「视频表达语言」。


这套语言长什么样?

「你用自然语言描述一个视频怎么做,模型不一定能理解准确。但如果有一套结构化的DSL,每个镜头、每个转场、每个时长都有明确的对象和属性,模型就能精确执行。」

他把这套体系叫「生成系统」,包含三层:

第一层是DSL。 视频的本质、制作方法,都要用这套语言描述清楚。这是数据的定义层。

第二层是Context。 怎么让模型理解你的意图?怎么让智能体知道下一步该做什么?这一层包括Agent、Workflow、专业知识库,本质是「降低两种熵」——用户意图的熵和智能体行动的熵。

第三层是Environment。 软件界面不是给人用的,是给「人和AI」共同活动的环境。这个环境里,人的每一个操作、AI的每一个动作,都会产生数据。这些数据可以被筛选、被学习,最终训回模型。

这套逻辑的核心是「内生数据」。用户在产品里的行为,会产生一份「如何制作好视频」的新数据。这份数据之前不存在,现在通过产品形态被创造出来。

问题在于:现在的模型能力够吗?

「不够,但也够。」王冠的回答很矛盾。「今天的视频模型处于GPT-2的阶段,不是ChatGPT时刻。Sora和Veo只是第一次把多个单点任务合到一个模型里,后面还有很长的路。」

但这不妨碍产品先跑起来。

2024年5月,他们上线了一个「做了一半的产品」,只开放了部分功能。结果有用户把周围所有能借的谷歌账号都借了一遍,充满积分包继续用。后来才知道,B站和视频号上一个百万播放量的AI内容博主,全程用的是他们的工具。

这不是巧合。


王冠的底层逻辑是「不要在诺基亚时代做App」。

「诺基亚里也有App,也有小游戏和计算器。但诺基亚时代的App和iPhone时代的App不是一个东西。」今天的视频模型还不是端到端的多模态模型,它需要语言作为中间转换器。未来的模型应该直接理解音频、视频、图像,像今天的语言模型理解文字一样。

那iPhone时刻的标志是什么?

「端到端的多模态模型,速度快几个数量级,成本降几个数量级。」他顿了顿,「但这不是我们能控制的。我们能做的是搭好System Two,等System One成熟。」

这个等待的过程,他们在做什么?

标注数据。

「我们的产品很像一个标注平台。」他说得很直白。「软件界面是一个环境,人和AI都在里面活动,产生数据。但这些数据不是所有都有用,你得找到『有效数据』——高于模型当前水平的那部分。」

怎么找?

他们的方法是雇佣「知道怎么做好视频的人」,让这些人用产品,把方法沉淀成数据。「就像OpenAI做完GPT-4后,开始招Stanford的PhD和大学老师标数据。我们做的是视频领域的同样的事。」

这套逻辑的终点是什么?

「让少数最强的人产生海量营收,比让海量用户产生同样营收更重要。」他的回答很反直觉。「因为更强的人会让系统变得更强。生成系统的价值是Scale最强的人,不是Scale最多的人。」


这种思路来自一个更大的推演:从「分销平台」到「产销平台」。

互联网时代,权力在分配端。推荐算法、搜索引擎、电商平台,都是中间商。创作者生产内容,平台分配流量,消费者被动接受。

AI时代,权力会转移到消费端。「未来你看到的内容,是根据你的User Profile、你的环境、你此刻的状态,实时生成出来的。这不是推荐,是生成。」

这听起来像《火影忍者》里的「无限月读」,每个人活在自己想象的世界里。但王冠认为这是技术发展的必然:「从软件时代的供销社,到互联网时代的电商平台,再到AI时代的个性化生成。消费物的权力一直在向消费者转移,这个趋势不可逆。」

在这个逻辑里,创作者会消失吗?

不会。但会分化成两类。

一类是「艺术家群体」,永远在系统能力之上产生增量。他们的特点是有足够强的主观能动性,能把系统用到极致。他们不生产内容,生产方法——Recipe。

另一类是「产销者」,生产即消费。你用AI做一个视频送给恋人,这个过程对你来说就是消费。你不需要拿出去赚流量,它的价值在生产的那一刻就兑现了。

而平台的货币,会从「注意力」变成「信任」。

当内容可以被规模化生产,稀缺性会从单个内容转移到「系列内容」。你信任一个创作者,订阅他的频道,这份信任的价值比单次播放量更高。Substack、Medium、OnlyFans,都是这个逻辑的早期形态。


王冠的公司现在有30个人,全员远程。每周只有一天大家主动来办公室。他们内部有个「温暖可信计划」,对抗远程工作的孤独感和不信任。有个内部朋友圈,大家在里面发的内容比真实朋友圈还多。

他招人只看两点:第一是自驱力,「会Building in Public的人,会写开源项目、分享认知的人」。第二是对某件事的热爱,「你的Reward Function不能是躺平,得是劳动最光荣。」

为什么AI时代需要这种组织?

「因为你要Scale最强的人。」他又重复了一遍这句话。「一个技术栈更全的工程师,未来能用AI产生的代码量是传统工程师的10倍。这种人天然自驱,你用传统方式管不了。唯一的办法是把管理问题在招聘时解决掉。」

他把公司视为「环境」,每个员工是「智能体」。「人工作本来不应该被异化。每个人的Reward Function应该由自己决定,环境要做的是让这些目标和公司目标契合起来。」

十一假期,很多同事没休息,一直在提交代码。没有加班安排,没有监督机制。「因为有人的Reward Function很简单:不想让公司死掉。」

这个30人团队在12月会发布正式产品。从5月的半成品到现在,他们完成的是「整个生成系统的完整搭建」。DSL、Context、Environment,三层架构全部落地。

他们会成为下一个Cursor吗?


王冠没有正面回答这个问题。他说:「不存在你能做别人做不了的事。关键是目标、位置和速度。你从什么起点出发,要到哪个终点,用多快的速度到达——这些决定了你和别人走的是不同的路。」

他最近在读《慢主生活》,汪曾祺的散文集。「和白饭一样,他能把很普通的生活写得津津有味。」

这个比喻很王冠。白饭的兼容性最强,任何食物搭配起来都有滋味。生成系统也是,不同的DSL、不同的Context、不同的Environment,最后都会殊途同归。

只是现在,他们还在搭建那个最底层的语言。