我用Claude Opus 4.6做了3个实验:播客后期、游戏开发、PPT制作
AI ProductsPersonal ProductivityAI Coding

我用Claude Opus 4.6做了3个实验:播客后期、游戏开发、PPT制作

无 | 主持人: Peter Yang (Google前产品经理)
2026年2月5日YouTube
返回首页

金句精选

如果你还在第五轮对话时需要重新粘贴原始指令,你可能正在用打字机时代的方式工作。

这就像在跟金鱼对话,每三分钟就要重新自我介绍。

它像一个冲动的实习生,拿到任务就开始乱干。

如果你的时间值钱,Opus 4.6的性价比其实更高。

AI的进化不是让它做更多事,而是让它做更对的事。

Peter Yang在发布前72小时拿到了Claude Opus 4.6的测试权限。他做的第一件事,是把一个用了半年、长达3000字的播客后期提示词丢进去。

五分钟后,AI生成了12组YouTube标题、6个剪辑点、完整show notes和3条社交媒体文案。全程没有「遗忘」任何一条指令。

如果你还在第五轮对话时需要重新粘贴原始指令,你可能正在用打字机时代的方式工作。

Peter是Google前产品经理,现在全职做AI应用测评。他每周要剪5期播客,原本要花2小时做后期整理。在测试Opus 4.6之前,他已经习惯了旧版Claude的「金鱼记忆」——对话超过三轮,就会忘掉你最初说的话。

「这就像在跟金鱼对话,每三分钟就要重新自我介绍。」

他办公桌上常年放着一个记事本,专门用来记录每次对话中AI「失忆」的时刻。现在,那个本子已经很久没翻开过了。

Peter遇到的问题,是所有AI重度用户的共同痛点:当你需要AI完成复杂任务时,它总会在中途「迷路」。

具体来说,有三个致命问题:

第一,对话拉长后会失忆。比如你在第一条消息里说「用轻松幽默的语气写」,到第五轮改稿时,它突然变成了严肃的学术论文。这种「人格分裂」在旧版Claude上几乎是必然发生的。

第二,拿到任务就开始干,不看全局。Peter之前测试代码生成时,AI会在读完一半文件的情况下就开始改代码,结果把另一半依赖关系全破坏了。开发者社区甚至发明了一个词叫「Plan Mode」(规划模式),专门用来强制AI「先想清楚再动手」。

第三,遇到困难就投降。如果第一次尝试失败,AI会立刻回来问你「接下来怎么办?」而不是自己换个思路再试试。这导致人必须在旁边盯着,相当于你请了个助理,但他每五分钟就要请示一次。

Peter统计过,在使用旧版Claude完成一个复杂任务时,平均要手动干预7次。每次干预意味着你要重新理解上下文,打断自己的工作节奏。如果按每次打断损失15分钟的「上下文切换成本」计算,一个原本2小时的任务实际要占用你一个下午。

Anthropic在Opus 4.6里做了三个核心改进,但Peter决定不看技术白皮书,直接用真实工作场景测试。

他选了三个日常任务:播客后期整理、游戏开发、PPT制作。这三个任务分别对应AI的记忆力、规划力和执行力。

「如果连这三件事都搞不定,那再好的benchmark分数也没用。」

实验1:播客后期——记忆力测试

Peter的播客后期提示词有3000多字,包含YouTube标题规范、缩略图设计原则、show notes格式、剪辑要求和社交媒体文案模板。这套流程他打磨了半年,每周用来处理5期节目。

他把最新一期对谈转录文本(约8000字)粘贴进去,没有做任何额外说明。

Opus 4.6花了30秒「思考」(这是新版的adaptive thinking功能),然后开始输出。

输出内容包括:

  • 12组标题+缩略图文案组合(按吸引力排序)
  • 6个建议剪辑的时间点(包括理由说明)
  • 完整show notes(包含时间轴、嘉宾介绍、讨论要点)
  • 3条不同平台的社交媒体文案(Twitter/LinkedIn/小红书风格)
  • 1段60秒intro reel脚本

最关键的是:所有输出都严格遵守了原始提示词里的格式规范和语气要求。 比如提示词里规定「标题必须包含具体数字或反常识观点」,生成的标题就没有一条是泛泛而谈的。

Peter测试了一个细节:他在对话第五轮时要求「把第二条标题改得更悬疑一些」,AI没有要求他重新说明什么是「悬疑」,而是直接参考了提示词里关于「悬疑标题」的定义(包含未解决的问题+反转暗示)。

这意味着它在整个对话过程中,始终保持着对初始指令的「索引」。

时间成本对比:

  • 旧版Claude + 人工干预:约120分钟
  • Opus 4.6 单次生成 + 微调:约25分钟

但这不是重点。

真正改变的是工作模式。以前你要「陪着」AI一步步走完流程,现在你只需要在最后验收成果。

这种差别就像从「手动挡」升级到「自动驾驶」。

实验2:游戏开发——规划力测试

Peter准备了4000个像素风格游戏素材(角色、场景、道具、特效),全部放在一个文件夹里。

然后他给了Opus 4.6一个「极其偷懒」的提示词:

「浏览这个文件夹,然后用ask user question工具跟我一起快速做个游戏。」

仅此而已。没有说要什么类型的游戏,没有指定技术栈,没有给任何设计文档。

AI做了什么?

第一步:扫描资源库(耗时3分钟) 它分析了4000+素材,自动分类出「太空射击」「横版闯关」「格斗」「俯视角RPG」四个可行方向。

第二步:询问偏好(不是等待指令,而是主动提问) 「你想做哪种游戏?我建议格斗游戏,因为你的素材里有完整的攻击动作序列帧。」

Peter选了「格斗游戏」+「Phaser 3引擎」。

第三步:独立工作15分钟 AI没有中途询问任何问题,直接开始搭建游戏框架、配置物理引擎、编写角色控制器、设计关卡系统。

15分钟后,它说:「游戏完成了,运行npm start测试吧。」

Peter按下回车键。游戏没启动。

如果是旧版Claude,故事到这里就结束了——它会回复「抱歉,请检查日志」然后等你喂答案。

但Opus 4.6的反应是:「让我检查一下问题。」

它自己读取了错误日志,发现是HP血条渲染逻辑的bug,改完后游戏正常运行了。整个修复过程Peter没说一句话。

最终成果:

  • 可玩的街霸风格格斗游戏
  • 角色可以移动、跳跃、出拳、踢腿
  • 三种敌人类型(街头混混、猎犬、食人魔)
  • 波次系统(每关敌人组合不同)
  • 血条、得分、回合显示

从零到可玩demo,总共用了约20分钟,其中18分钟是AI独立工作。

Peter后来又让它「增加敌人种类」,AI又花了6分钟加了两种新敌人,包括会发射激光的战马(是的,一匹会发激光的马)。

实验3:PPT制作——执行力测试

Peter用的是Codework,这是Claude桌面应用里的一个工具,可以操作虚拟机来制作文档、整理文件、生成演示文稿。

他给的任务是:

「用Claude Code最佳实践做一个演示文稿,要视觉上有趣。」

Opus 4.6做了什么?

第一步:需求澄清(而不是立刻开工)

  • 「目标受众是谁?」→ Peter选了「Claude Code新手开发者」
  • 「时长要求?」→ 短篇(10-15页)
  • 「想覆盖哪些主题?」→ 全部核心概念

第二步:自动化研究 AI去网上搜索了Claude Code的官方文档、社区最佳实践、常见错误案例。

第三步:编写PPT(是的,它在写代码生成PPT) Peter直到看日志才知道,原来PowerPoint可以用代码生成。AI写了一个Python脚本,调用python-pptx库来创建幻灯片。

第四步:视觉质量检查 生成初版后,AI自己发现了对齐问题、字间距问题、颜色对比度不足等7个视觉缺陷,逐一修复。

最终成果: 一份14页的PPT,涵盖了「什么是Claude Code」「常用命令」「claude.md配置」「提示词技巧」「plan-then-build模式」「测试与钩子」「MCP协议」「权限管理」「常见错误」等主题。

每一页都有清晰的标题、要点列表、图标装饰(虽然Anthropic没有图像生成能力,但它用emoji和Unicode符号弥补了)。

Peter唯一的不满是「希望有更多配图」,但考虑到AI没法生成图片,这个结果已经超预期了。

整个过程耗时约12分钟,期间Peter只回答了三个选择题。

如果你把Opus 4.6的改进翻译成「人类能力」的语言,它其实只做了三件事:

一、记住了你说的话。这听起来很基础,但想想你上次跟某个AI对话超过五轮后,是不是要重新解释一遍背景?记忆力不是锦上添花,而是协作的前提。

二、动手前先想清楚。以前AI像个冲动的实习生,拿到任务就开始乱干。现在它会先看完所有文件、理解依赖关系、规划执行路径,然后再开始写代码。这种「慢即是快」的逻辑,是人类花了几千年才学会的。

三、遇到问题会换个角度再试。当第一次尝试失败时,它不会立刻求助,而是尝试第二种、第三种方案。这种「韧性」让AI从「需要监督的工具」变成了「可以放心交付任务的助手」。

这三点合起来,就是我们说的「深度思考」。

不是指AI有了意识,而是它终于学会了人类在做复杂工作时的基本策略:先看全局,再动手,遇到障碍就迂回。

但这不代表Opus 4.6适合所有人。

不适用场景一:快速问答。 如果你只是想问「Python怎么读取CSV文件」,Opus 4.6会花10秒钟思考,然后给你一个200字的答案。这时候用Sonnet会更快。

不适用场景二:预算紧张的重复任务。 Opus 4.6的定价比Sonnet贵5倍。如果你要处理1000份格式相同的文档,批量调用Sonnet更划算。

不适用场景三:需要图像生成的任务。 Anthropic还没有发布图像生成模型,所以做设计类工作时,你还是得用Midjourney或DALL-E。

适用场景: 当任务的「上下文切换成本」高于「AI调用成本」时,Opus 4.6就值得用。比如写一份需要反复修改的商业计划书、重构一个3000行的代码库、准备一场40分钟的演讲内容——这些场景下,如果AI能减少你的干预次数,就能节省几个小时的时间成本。

如果你的时间值钱,Opus 4.6的性价比其实更高。

Peter在视频最后提到一个细节:Opus 4.6发布20分钟后,OpenAI发布了Codex 5.3。

两家公司现在正在进行一场「编程AI军备竞赛」。它们在Twitter上互相嘲讽,在benchmark排行榜上你追我赶,甚至开始投放针对对方用户的广告。

Peter的开发者朋友们给出了一个有趣的共识:

「Opus有个性,适合从零到一的创造;Codex更理性,适合解决刁钻的技术难题。」

但这个判断可能下周就会过时。因为按照现在的迭代速度,Sonnet 5大概一个月后就会发布。

AI的进化不是让它做更多事,而是让它做更对的事。

当你不再需要每三分钟打断它一次时,你才真正拥有了一个「助手」,而不是一个「需要辅导的实习生」。