你有没有过这种感觉——打开Gemini想让它帮你改个Google文档,结果它告诉你"抱歉,我暂时做不到"?
你所有的邮件在Gmail,日程在Calendar,文档在Drive,谷歌坐拥你全部的数字生活,但它的AI助手连最基本的事都办不了。这就是我在Google I/O 2026现场最强烈的感受:谷歌有数据、有模型、有基础设施,但它在AI Agent这条赛道上,正在把一手好牌打得稀烂。
Peter Yang,产品领域头部创作者,Google的内容赞助商之一。他刚从I/O现场回来,拍了一支14分钟的视频,说了一句很扎心的话:"我是真心希望谷歌赢的,但我必须诚实。"
他的诚实,指向三个正在同时进行的AI竞赛。而你如果看懂了这三场比赛的格局,就能判断接下来该把时间和金钱押在谁的身上。
第一场竞赛:从聊天框到个人Agent——万亿市场谁说了算?
Peter给了一个非常笃定的判断:AI聊天的时代快结束了。
用户不想要一个只会回复文字的对话框,他们要的是一个能真正替你干活的Agent。他说这个市场的规模,至少是1万亿美元。
目前的竞争格局像一条光谱。左端是Open Claw和Hermes这类产品,它们活在你的聊天软件里,完全可定制。Peter自己现在每天都在用Hermes处理邮件、日历和周报。
中间是Codex和Claude Code。它们背后站着OpenAI和Anthropic,正在疯狂往Agent方向加功能——支持任意API、定时任务、自动化流程。但用起来还是更像编程工具,个人助手只是附赠。
右端,是Google的Gemini。Spark是Google刚发布的个人Agent产品,核心理念是三个词:Personal(理解你)、Proactive(主动提醒)、Powerful(真正干活)。听起来很美好。
但Peter在I/O现场直接问了Gemini产品负责人Chris一个问题:"Spark什么时候能接入任意API和MCP?"
Chris的回答是:任何涉及"写入"操作的场景,Agent都应该先问用户要不要批准。
你听听,Gemini有9亿用户,Google怕有人误删文件,所以要把每一步操作都加上确认弹窗。而Peter在Codex和Claude Code里早就一键跳过所有权限了。
他用了一个很直白的比喻:模型已经足够聪明,不会随随便便删你全部文件的。你让用户自己决定信不信它,而不是替用户做决定。
这才是Google在Agent竞赛里最大的隐患——不是没有能力,是不敢放权。
第二场竞赛:从编码工具到知识工作超级App——谷歌在追赶
如果说Agent竞赛是Google"有优势但不敢用",那编码和知识工作这条赛道,Google就是实打实地在追赶。
Peter观察到两个趋势。第一,AI原生开发者几乎都转向了Codex。原因很简单:慷慨的调用额度、漂亮的应用界面,加上GPT 5.5这个编码能力极强的模型。第二,企业客户大批涌向Claude Code。Anthropic把Claude Code的声量做到了极致,企业采用率一路飙升。
Google的回应是Gemini 3.5 Flash。从基准测试看,它不仅超过了自家的Gemini 3.1 Pro,某些场景甚至超越了GPT 5.5。价格也更友好——输入每百万token 1.5美元,输出9美元,而GPT是5美元和30美元。对企业来说,当前端模型烧预算太快,"够用且便宜"才是主流选择。
但问题不在模型,在"壳"。
Google的编码工具叫Anti-Gravity。Peter打开Anti-Gravity、Claude Code和Codex三款应用的截图,并排放在一起——左边聊天列表,中间对话区,右边预览。几乎一模一样。
他提了一个很关键的观点:这个UI对个人用没问题,但如果是团队协作——人和Agent一起干活——这个界面就撑不住了。
更让人困惑的是Google的产品分裂。Stitch是Google的AI设计工具,和Anti-Gravity是完全独立的产品。Peter说,我做一个产品,规划、设计、开发应该是同一件事,为什么要在三个Google应用之间来回切?
OpenAI和Anthropic都在往"超级App"方向走,一个工具搞定编码、设计和知识工作。Google却反其道而行,把AI聊天塞进Docs、Slides、Sheets、Gmail的每一个角落。
Peter认为这是一个生存级威胁。未来的工作方式不是打开10个应用,而是对着一个真正理解你的Agent说一句话,它就把活干完了。Google必须让Anti-Gravity成为那个超级App,而不是给每个老产品加一个聊天框。
第三场竞赛:从文字到多模态——谷歌真正领先的地方
说到多模态,Peter的语气终于轻松了。
人类之间的交流本来就不只是文字。我们发语音、打电话、拍视频。Google是目前唯一一家在视频模型上有竞争力、同时还拥有YouTube的美国实验室。
TikTok和YouTube的流行早就证明了消费者对视频的偏爱远超文字。Google在这条赛道上的真正对手只有xAI,以及一些不怎么尊重版权的中国视频模型。
Google还发布了Omni模型——任意输入,任意输出。用语音给输入,它能生成视频、图片或任何你想要的格式。
Flow是Google生成图片和视频的最佳产品,能做出相当惊艳的场景。但你知道它的存在吗?为什么它不是一个独立应用,而是没有集成到Gemini主应用里?
Peter还吐槽了一个家长视角的痛点:编辑家庭照片和视频应该是消费者最大的使用场景,但Gemini有严格的隐私和安全限制,上传孩子的视频会被直接拒绝。他理解原因,但作为父母,这是他的头号需求。
底层变量:Josh Woodward的文化革命
在所有产品和战略分析之后,Peter花了不短的篇幅讲一个人——Josh Woodward,Gemini Labs和NotebookLM的VP。
Google素以官僚文化著称,规划多、交付少。但Josh改变了这一切。他在I/O上说了一句Peter深以为然的话:"我们只有90天的路线图,运气好的话120天。我已经5年没做过年度路线图了。"
他的团队把PRD控制在一页以内,开会不读文档,而是用AI Studio和Anti-Gravity的原型来演示。
这恰恰是赢在AI时代需要的文化:速度优于规划,原型优于PPT。
局限性提醒
Peter的视角有两个局限。第一,他是Google的赞助内容创作者,虽然他强调"诚实",但赞助关系多少会影响表达的力度。第二,他主要站在技术开发者和产品经理的角度看问题,对普通消费者和非技术用户的需求着墨不多。此外,Agent市场仍处于极早期,1万亿美元的市场规模判断缺乏严谨论证,更多是主观信心。
金句收尾
谷歌什么都有了——数据、模型、人才、基础设施,甚至文化也在变好。它唯一缺的,是专注。少发几个独立App,少加几层安全确认,把Anti-Gravity和Gemini做成真正好用的超级工具。专注,然后交付。
内容数据看板
核心数据
- 个人Agent市场规模预估:至少1万亿美元
- Gemini用户数:9亿
- Gemini 3.5 Flash输入价格:每百万token 1.5美元
- Gemini 3.5 Flash输出价格:每百万token 9美元
- GPT对应价格:输入5美元,输出30美元
- Josh Woodward团队路线图周期:90-120天
- Josh已5年未做年度路线图
- PRD上限:1页
AI工具应用
- Google Gemini / Spark(个人Agent)
- Google Anti-Gravity(编码工具)
- Google Flow(图片/视频生成)
- Google Omni模型(多模态输入输出)
- Google Stitch(AI设计工具)
- OpenAI Codex(编码+Agent)
- Anthropic Claude Code(编码+企业Agent)
- Open Claw / Hermes(消息内个人Agent)
- AI Studio(内部协作原型工具)
关键金句
- "AI聊天的时代快结束了,用户要的是能干活的Agent"
- "模型已经足够聪明,不会随随便便删你全部文件的"
- "未来的工作方式不是打开10个应用,而是对着一个Agent说一句话"
- "速度优于规划,原型优于PPT"
- "谷歌什么都有了,唯一缺的是专注"
可延伸话题
- 如果你是企业技术负责人,Codex vs Claude Code vs Anti-Gravity该怎么选?
- AI Agent的权限边界:安全性vs效率性如何平衡?
- Google的产品碎片化是组织架构问题还是战略选择?
- 90天路线图模式是否适用于所有AI团队?
