降噪 - AI精选内容平台

Peter Yang在发布前72小时拿到了Claude Opus 4.6的测试权限。他做的第一件事，是把一个用了半年、长达3000字的播客后期提示词丢进去。

五分钟后，AI生成了12组YouTube标题、6个剪辑点、完整show notes和3条社交媒体文案。全程没有「遗忘」任何一条指令。

如果你还在第五轮对话时需要重新粘贴原始指令，你可能正在用打字机时代的方式工作。

Peter是Google前产品经理，现在全职做AI应用测评。他每周要剪5期播客，原本要花2小时做后期整理。在测试Opus 4.6之前，他已经习惯了旧版Claude的「金鱼记忆」——对话超过三轮，就会忘掉你最初说的话。

「这就像在跟金鱼对话，每三分钟就要重新自我介绍。」

他办公桌上常年放着一个记事本，专门用来记录每次对话中AI「失忆」的时刻。现在，那个本子已经很久没翻开过了。

Peter遇到的问题，是所有AI重度用户的共同痛点：当你需要AI完成复杂任务时，它总会在中途「迷路」。

具体来说，有三个致命问题：

第一，对话拉长后会失忆。比如你在第一条消息里说「用轻松幽默的语气写」，到第五轮改稿时，它突然变成了严肃的学术论文。这种「人格分裂」在旧版Claude上几乎是必然发生的。

第二，拿到任务就开始干，不看全局。Peter之前测试代码生成时，AI会在读完一半文件的情况下就开始改代码，结果把另一半依赖关系全破坏了。开发者社区甚至发明了一个词叫「Plan Mode」（规划模式），专门用来强制AI「先想清楚再动手」。

第三，遇到困难就投降。如果第一次尝试失败，AI会立刻回来问你「接下来怎么办？」而不是自己换个思路再试试。这导致人必须在旁边盯着，相当于你请了个助理，但他每五分钟就要请示一次。

Peter统计过，在使用旧版Claude完成一个复杂任务时，平均要手动干预7次。每次干预意味着你要重新理解上下文，打断自己的工作节奏。如果按每次打断损失15分钟的「上下文切换成本」计算，一个原本2小时的任务实际要占用你一个下午。

Anthropic在Opus 4.6里做了三个核心改进，但Peter决定不看技术白皮书，直接用真实工作场景测试。

他选了三个日常任务：播客后期整理、游戏开发、PPT制作。这三个任务分别对应AI的记忆力、规划力和执行力。

「如果连这三件事都搞不定，那再好的benchmark分数也没用。」

实验1：播客后期——记忆力测试

Peter的播客后期提示词有3000多字，包含YouTube标题规范、缩略图设计原则、show notes格式、剪辑要求和社交媒体文案模板。这套流程他打磨了半年，每周用来处理5期节目。

他把最新一期对谈转录文本（约8000字）粘贴进去，没有做任何额外说明。

Opus 4.6花了30秒「思考」（这是新版的adaptive thinking功能），然后开始输出。

输出内容包括：

12组标题+缩略图文案组合（按吸引力排序）
6个建议剪辑的时间点（包括理由说明）
完整show notes（包含时间轴、嘉宾介绍、讨论要点）
3条不同平台的社交媒体文案（Twitter/LinkedIn/小红书风格）
1段60秒intro reel脚本

最关键的是：所有输出都严格遵守了原始提示词里的格式规范和语气要求。 比如提示词里规定「标题必须包含具体数字或反常识观点」，生成的标题就没有一条是泛泛而谈的。

Peter测试了一个细节：他在对话第五轮时要求「把第二条标题改得更悬疑一些」，AI没有要求他重新说明什么是「悬疑」，而是直接参考了提示词里关于「悬疑标题」的定义（包含未解决的问题+反转暗示）。

这意味着它在整个对话过程中，始终保持着对初始指令的「索引」。

时间成本对比：

旧版Claude + 人工干预：约120分钟
Opus 4.6 单次生成 + 微调：约25分钟

但这不是重点。

真正改变的是工作模式。以前你要「陪着」AI一步步走完流程，现在你只需要在最后验收成果。

这种差别就像从「手动挡」升级到「自动驾驶」。

实验2：游戏开发——规划力测试

Peter准备了4000个像素风格游戏素材（角色、场景、道具、特效），全部放在一个文件夹里。

然后他给了Opus 4.6一个「极其偷懒」的提示词：

「浏览这个文件夹，然后用ask user question工具跟我一起快速做个游戏。」

仅此而已。没有说要什么类型的游戏，没有指定技术栈，没有给任何设计文档。

AI做了什么？

第一步：扫描资源库（耗时3分钟）它分析了4000+素材，自动分类出「太空射击」「横版闯关」「格斗」「俯视角RPG」四个可行方向。

第二步：询问偏好（不是等待指令，而是主动提问）「你想做哪种游戏？我建议格斗游戏，因为你的素材里有完整的攻击动作序列帧。」

Peter选了「格斗游戏」+「Phaser 3引擎」。

第三步：独立工作15分钟 AI没有中途询问任何问题，直接开始搭建游戏框架、配置物理引擎、编写角色控制器、设计关卡系统。

15分钟后，它说：「游戏完成了，运行npm start测试吧。」

Peter按下回车键。游戏没启动。

如果是旧版Claude，故事到这里就结束了——它会回复「抱歉，请检查日志」然后等你喂答案。

但Opus 4.6的反应是：「让我检查一下问题。」

它自己读取了错误日志，发现是HP血条渲染逻辑的bug，改完后游戏正常运行了。整个修复过程Peter没说一句话。

最终成果：

可玩的街霸风格格斗游戏
角色可以移动、跳跃、出拳、踢腿
三种敌人类型（街头混混、猎犬、食人魔）
波次系统（每关敌人组合不同）
血条、得分、回合显示

从零到可玩demo，总共用了约20分钟，其中18分钟是AI独立工作。

Peter后来又让它「增加敌人种类」，AI又花了6分钟加了两种新敌人，包括会发射激光的战马（是的，一匹会发激光的马）。

实验3：PPT制作——执行力测试

Peter用的是Codework，这是Claude桌面应用里的一个工具，可以操作虚拟机来制作文档、整理文件、生成演示文稿。

他给的任务是：

「用Claude Code最佳实践做一个演示文稿，要视觉上有趣。」

Opus 4.6做了什么？

第一步：需求澄清（而不是立刻开工）

「目标受众是谁？」→ Peter选了「Claude Code新手开发者」
「时长要求？」→ 短篇（10-15页）
「想覆盖哪些主题？」→ 全部核心概念

第二步：自动化研究 AI去网上搜索了Claude Code的官方文档、社区最佳实践、常见错误案例。

第三步：编写PPT（是的，它在写代码生成PPT） Peter直到看日志才知道，原来PowerPoint可以用代码生成。AI写了一个Python脚本，调用python-pptx库来创建幻灯片。

第四步：视觉质量检查 生成初版后，AI自己发现了对齐问题、字间距问题、颜色对比度不足等7个视觉缺陷，逐一修复。

最终成果： 一份14页的PPT，涵盖了「什么是Claude Code」「常用命令」「claude.md配置」「提示词技巧」「plan-then-build模式」「测试与钩子」「MCP协议」「权限管理」「常见错误」等主题。

每一页都有清晰的标题、要点列表、图标装饰（虽然Anthropic没有图像生成能力，但它用emoji和Unicode符号弥补了）。

Peter唯一的不满是「希望有更多配图」，但考虑到AI没法生成图片，这个结果已经超预期了。

整个过程耗时约12分钟，期间Peter只回答了三个选择题。

如果你把Opus 4.6的改进翻译成「人类能力」的语言，它其实只做了三件事：

一、记住了你说的话。这听起来很基础，但想想你上次跟某个AI对话超过五轮后，是不是要重新解释一遍背景？记忆力不是锦上添花，而是协作的前提。

二、动手前先想清楚。以前AI像个冲动的实习生，拿到任务就开始乱干。现在它会先看完所有文件、理解依赖关系、规划执行路径，然后再开始写代码。这种「慢即是快」的逻辑，是人类花了几千年才学会的。

三、遇到问题会换个角度再试。当第一次尝试失败时，它不会立刻求助，而是尝试第二种、第三种方案。这种「韧性」让AI从「需要监督的工具」变成了「可以放心交付任务的助手」。

这三点合起来，就是我们说的「深度思考」。

不是指AI有了意识，而是它终于学会了人类在做复杂工作时的基本策略：先看全局，再动手，遇到障碍就迂回。

但这不代表Opus 4.6适合所有人。

不适用场景一：快速问答。 如果你只是想问「Python怎么读取CSV文件」，Opus 4.6会花10秒钟思考，然后给你一个200字的答案。这时候用Sonnet会更快。

不适用场景二：预算紧张的重复任务。 Opus 4.6的定价比Sonnet贵5倍。如果你要处理1000份格式相同的文档，批量调用Sonnet更划算。

不适用场景三：需要图像生成的任务。 Anthropic还没有发布图像生成模型，所以做设计类工作时，你还是得用Midjourney或DALL-E。

适用场景： 当任务的「上下文切换成本」高于「AI调用成本」时，Opus 4.6就值得用。比如写一份需要反复修改的商业计划书、重构一个3000行的代码库、准备一场40分钟的演讲内容——这些场景下，如果AI能减少你的干预次数，就能节省几个小时的时间成本。

如果你的时间值钱，Opus 4.6的性价比其实更高。

Peter在视频最后提到一个细节：Opus 4.6发布20分钟后，OpenAI发布了Codex 5.3。

两家公司现在正在进行一场「编程AI军备竞赛」。它们在Twitter上互相嘲讽，在benchmark排行榜上你追我赶，甚至开始投放针对对方用户的广告。

Peter的开发者朋友们给出了一个有趣的共识：

「Opus有个性，适合从零到一的创造；Codex更理性，适合解决刁钻的技术难题。」

但这个判断可能下周就会过时。因为按照现在的迭代速度，Sonnet 5大概一个月后就会发布。

AI的进化不是让它做更多事，而是让它做更对的事。

当你不再需要每三分钟打断它一次时，你才真正拥有了一个「助手」，而不是一个「需要辅导的实习生」。

我用Claude Opus 4.6做了3个实验：播客后期、游戏开发、PPT制作

金句精选

实验1：播客后期——记忆力测试

实验2：游戏开发——规划力测试

实验3：PPT制作——执行力测试