Peter Yang在发布前72小时拿到了Claude Opus 4.6的测试权限。他做的第一件事,是把一个用了半年、长达3000字的播客后期提示词丢进去。
五分钟后,AI生成了12组YouTube标题、6个剪辑点、完整show notes和3条社交媒体文案。全程没有「遗忘」任何一条指令。
如果你还在第五轮对话时需要重新粘贴原始指令,你可能正在用打字机时代的方式工作。
Peter是Google前产品经理,现在全职做AI应用测评。他每周要剪5期播客,原本要花2小时做后期整理。在测试Opus 4.6之前,他已经习惯了旧版Claude的「金鱼记忆」——对话超过三轮,就会忘掉你最初说的话。
「这就像在跟金鱼对话,每三分钟就要重新自我介绍。」
他办公桌上常年放着一个记事本,专门用来记录每次对话中AI「失忆」的时刻。现在,那个本子已经很久没翻开过了。
Peter遇到的问题,是所有AI重度用户的共同痛点:当你需要AI完成复杂任务时,它总会在中途「迷路」。
具体来说,有三个致命问题:
第一,对话拉长后会失忆。比如你在第一条消息里说「用轻松幽默的语气写」,到第五轮改稿时,它突然变成了严肃的学术论文。这种「人格分裂」在旧版Claude上几乎是必然发生的。
第二,拿到任务就开始干,不看全局。Peter之前测试代码生成时,AI会在读完一半文件的情况下就开始改代码,结果把另一半依赖关系全破坏了。开发者社区甚至发明了一个词叫「Plan Mode」(规划模式),专门用来强制AI「先想清楚再动手」。
第三,遇到困难就投降。如果第一次尝试失败,AI会立刻回来问你「接下来怎么办?」而不是自己换个思路再试试。这导致人必须在旁边盯着,相当于你请了个助理,但他每五分钟就要请示一次。
Peter统计过,在使用旧版Claude完成一个复杂任务时,平均要手动干预7次。每次干预意味着你要重新理解上下文,打断自己的工作节奏。如果按每次打断损失15分钟的「上下文切换成本」计算,一个原本2小时的任务实际要占用你一个下午。
Anthropic在Opus 4.6里做了三个核心改进,但Peter决定不看技术白皮书,直接用真实工作场景测试。
他选了三个日常任务:播客后期整理、游戏开发、PPT制作。这三个任务分别对应AI的记忆力、规划力和执行力。
「如果连这三件事都搞不定,那再好的benchmark分数也没用。」
实验1:播客后期——记忆力测试
Peter的播客后期提示词有3000多字,包含YouTube标题规范、缩略图设计原则、show notes格式、剪辑要求和社交媒体文案模板。这套流程他打磨了半年,每周用来处理5期节目。
他把最新一期对谈转录文本(约8000字)粘贴进去,没有做任何额外说明。
Opus 4.6花了30秒「思考」(这是新版的adaptive thinking功能),然后开始输出。
输出内容包括:
- 12组标题+缩略图文案组合(按吸引力排序)
- 6个建议剪辑的时间点(包括理由说明)
- 完整show notes(包含时间轴、嘉宾介绍、讨论要点)
- 3条不同平台的社交媒体文案(Twitter/LinkedIn/小红书风格)
- 1段60秒intro reel脚本
最关键的是:所有输出都严格遵守了原始提示词里的格式规范和语气要求。 比如提示词里规定「标题必须包含具体数字或反常识观点」,生成的标题就没有一条是泛泛而谈的。
Peter测试了一个细节:他在对话第五轮时要求「把第二条标题改得更悬疑一些」,AI没有要求他重新说明什么是「悬疑」,而是直接参考了提示词里关于「悬疑标题」的定义(包含未解决的问题+反转暗示)。
这意味着它在整个对话过程中,始终保持着对初始指令的「索引」。
时间成本对比:
- 旧版Claude + 人工干预:约120分钟
- Opus 4.6 单次生成 + 微调:约25分钟
但这不是重点。
真正改变的是工作模式。以前你要「陪着」AI一步步走完流程,现在你只需要在最后验收成果。
这种差别就像从「手动挡」升级到「自动驾驶」。
实验2:游戏开发——规划力测试
Peter准备了4000个像素风格游戏素材(角色、场景、道具、特效),全部放在一个文件夹里。
然后他给了Opus 4.6一个「极其偷懒」的提示词:
「浏览这个文件夹,然后用ask user question工具跟我一起快速做个游戏。」
仅此而已。没有说要什么类型的游戏,没有指定技术栈,没有给任何设计文档。
AI做了什么?
第一步:扫描资源库(耗时3分钟) 它分析了4000+素材,自动分类出「太空射击」「横版闯关」「格斗」「俯视角RPG」四个可行方向。
第二步:询问偏好(不是等待指令,而是主动提问) 「你想做哪种游戏?我建议格斗游戏,因为你的素材里有完整的攻击动作序列帧。」
Peter选了「格斗游戏」+「Phaser 3引擎」。
第三步:独立工作15分钟 AI没有中途询问任何问题,直接开始搭建游戏框架、配置物理引擎、编写角色控制器、设计关卡系统。
15分钟后,它说:「游戏完成了,运行npm start测试吧。」
Peter按下回车键。游戏没启动。
如果是旧版Claude,故事到这里就结束了——它会回复「抱歉,请检查日志」然后等你喂答案。
但Opus 4.6的反应是:「让我检查一下问题。」
它自己读取了错误日志,发现是HP血条渲染逻辑的bug,改完后游戏正常运行了。整个修复过程Peter没说一句话。
最终成果:
- 可玩的街霸风格格斗游戏
- 角色可以移动、跳跃、出拳、踢腿
- 三种敌人类型(街头混混、猎犬、食人魔)
- 波次系统(每关敌人组合不同)
- 血条、得分、回合显示
从零到可玩demo,总共用了约20分钟,其中18分钟是AI独立工作。
Peter后来又让它「增加敌人种类」,AI又花了6分钟加了两种新敌人,包括会发射激光的战马(是的,一匹会发激光的马)。
实验3:PPT制作——执行力测试
Peter用的是Codework,这是Claude桌面应用里的一个工具,可以操作虚拟机来制作文档、整理文件、生成演示文稿。
他给的任务是:
「用Claude Code最佳实践做一个演示文稿,要视觉上有趣。」
Opus 4.6做了什么?
第一步:需求澄清(而不是立刻开工)
- 「目标受众是谁?」→ Peter选了「Claude Code新手开发者」
- 「时长要求?」→ 短篇(10-15页)
- 「想覆盖哪些主题?」→ 全部核心概念
第二步:自动化研究 AI去网上搜索了Claude Code的官方文档、社区最佳实践、常见错误案例。
第三步:编写PPT(是的,它在写代码生成PPT) Peter直到看日志才知道,原来PowerPoint可以用代码生成。AI写了一个Python脚本,调用python-pptx库来创建幻灯片。
第四步:视觉质量检查 生成初版后,AI自己发现了对齐问题、字间距问题、颜色对比度不足等7个视觉缺陷,逐一修复。
最终成果: 一份14页的PPT,涵盖了「什么是Claude Code」「常用命令」「claude.md配置」「提示词技巧」「plan-then-build模式」「测试与钩子」「MCP协议」「权限管理」「常见错误」等主题。
每一页都有清晰的标题、要点列表、图标装饰(虽然Anthropic没有图像生成能力,但它用emoji和Unicode符号弥补了)。
Peter唯一的不满是「希望有更多配图」,但考虑到AI没法生成图片,这个结果已经超预期了。
整个过程耗时约12分钟,期间Peter只回答了三个选择题。
如果你把Opus 4.6的改进翻译成「人类能力」的语言,它其实只做了三件事:
一、记住了你说的话。这听起来很基础,但想想你上次跟某个AI对话超过五轮后,是不是要重新解释一遍背景?记忆力不是锦上添花,而是协作的前提。
二、动手前先想清楚。以前AI像个冲动的实习生,拿到任务就开始乱干。现在它会先看完所有文件、理解依赖关系、规划执行路径,然后再开始写代码。这种「慢即是快」的逻辑,是人类花了几千年才学会的。
三、遇到问题会换个角度再试。当第一次尝试失败时,它不会立刻求助,而是尝试第二种、第三种方案。这种「韧性」让AI从「需要监督的工具」变成了「可以放心交付任务的助手」。
这三点合起来,就是我们说的「深度思考」。
不是指AI有了意识,而是它终于学会了人类在做复杂工作时的基本策略:先看全局,再动手,遇到障碍就迂回。
但这不代表Opus 4.6适合所有人。
不适用场景一:快速问答。 如果你只是想问「Python怎么读取CSV文件」,Opus 4.6会花10秒钟思考,然后给你一个200字的答案。这时候用Sonnet会更快。
不适用场景二:预算紧张的重复任务。 Opus 4.6的定价比Sonnet贵5倍。如果你要处理1000份格式相同的文档,批量调用Sonnet更划算。
不适用场景三:需要图像生成的任务。 Anthropic还没有发布图像生成模型,所以做设计类工作时,你还是得用Midjourney或DALL-E。
适用场景: 当任务的「上下文切换成本」高于「AI调用成本」时,Opus 4.6就值得用。比如写一份需要反复修改的商业计划书、重构一个3000行的代码库、准备一场40分钟的演讲内容——这些场景下,如果AI能减少你的干预次数,就能节省几个小时的时间成本。
如果你的时间值钱,Opus 4.6的性价比其实更高。
Peter在视频最后提到一个细节:Opus 4.6发布20分钟后,OpenAI发布了Codex 5.3。
两家公司现在正在进行一场「编程AI军备竞赛」。它们在Twitter上互相嘲讽,在benchmark排行榜上你追我赶,甚至开始投放针对对方用户的广告。
Peter的开发者朋友们给出了一个有趣的共识:
「Opus有个性,适合从零到一的创造;Codex更理性,适合解决刁钻的技术难题。」
但这个判断可能下周就会过时。因为按照现在的迭代速度,Sonnet 5大概一个月后就会发布。
AI的进化不是让它做更多事,而是让它做更对的事。
当你不再需要每三分钟打断它一次时,你才真正拥有了一个「助手」,而不是一个「需要辅导的实习生」。
