Codex团队私藏的9个高效用法 - AI日报

发布时间：2026-05-20 14:03阅读：17

本期节目聚焦Codex团队的9个实战技巧，深入剖析Composer 2.5模型在AI竞争中的突破性进展。

•Composer 2.5在核心测试中表现卓越，成本仅为同类产品的一半。

•通过强化学习优化，展示了后训练阶段开源模型的巨大潜力。

•Cloudflare与Mythos联手推出新工具，可生成实际可用的漏洞利用代码。

•企业需提防被AI模型绑定，中立模型公司迎来发展机遇。

•Cursor模型效率提升十倍，成本骤降九成。

•AI竞赛中，模型实验室与工具链公司的边界日趋模糊。

行业动态

Cursor发布Composer 2.5：性能直逼顶尖水平，定价仅为十分之一

Cursor今年1月CEO内部宣布进入"战时状态"——Claude Code从Harness端蚕食市场、Anthropic模型的服务成本难以承受。首要任务：训练自主编码模型。3月推出的Composer 2主要用于降低成本，基础任务尚可但未能吸引新用户。刚发布的Composer 2.5则可能是质的飞跃。

测试成绩方面，Terminal-bench 2.0得分69.3%（Opus 4.7为69.4%），SWE-bench Multilingual 79.8%（Opus 4.7为80.5%，GPT-5.5为77.8%），Cursor内部高难度编码基准63.2%（Opus 4.7和GPT-5.5均在64%左右）。性能基本达到同一级别。

关键在于价格：50美分/百万输入token，2.5美元/百万输出token——是Opus 4.7或GPT-5.5的一半。更令人惊叹的是token使用效率：SWE-bench上每任务不到1美元，而GPT-5.5 Extra High设置约5美元/任务，Opus 4.7 Max设置约11美元/任务。Cursor宣称效率是同等能力模型的10倍。

底层仍基于Moonshot的Kimi K2.5进行后训练，意味着所有性能提升都来自更先进的强化学习技术——开源模型通过后训练追赶前沿的路径再次得到验证。Cursor同时透露正在xAI的Colossus上从零开始训练全新模型，"预期将实现模型能力的重大突破"。

Leon的实测反馈："相当于获得了Opus 4.7水平但成本低10倍的模型。前端表现出色，设计稍显通用（不使用Skills的情况下）。" Max Weinbach："Composer 2比2.5差很多——2只适合小改，2.5可以放心让它承担更多任务。"

更值得关注的是企业层面的信号。Gavin Pulapadi发表了一针见血的观点："如果你是咨询公司（PwC、埃森哲），你把Anthropic或OpenAI直接部署到客户组织中——你是在引狼入室。OpenAI和Anthropic正在公开资助和创办你的竞争对手，同时利用你的使用数据为自己谋利。"这指向一个正在升温的话题：企业对单一模型供应商锁定的警惕，正好为Cursor这类不绑定模型的Harness公司打开了发展空间。

Cloudflare发布Mythos深度使用报告

Cloudflare作为Project Glasswing的早期合作方，发布了可能是目前最具参考价值的Mythos独立评测。核心结论：Mythos不是之前模型的渐进式改进，而是"一种不同类型的工具在做不同类型的工作"。

两个质变。第一，Mythos能构建完整的exploit链——不是只找单个bug，而是将多个攻击原语合成为可执行的攻击。Cloudflare写道"用推理来构建复杂exploit使其更像一个高级研究员而非自动化扫描器"。第二，Mythos能生成可工作的exploit证明——之前的模型能发现潜在漏洞但很少能证明可被利用，Mythos能直接给出代码。而且如果第一次不成功，它会自我调试和改进。

Daniel Jeffries的评价代表了社区中更理性的声音："这才是我们需要围绕这些工具展开的对话——不是关于'软件终结'的肤浅讨论，而是如何让全世界的软件更安全。而且仅靠Anthropic让40家公司参与Project Glasswing是不够的。"

Elon vs OpenAI诉讼：三周审理，陪审团两小时裁决，全部驳回

陪审团一致裁定：违反慈善信托的指控因超过诉讼时效被驳回（OpenAI说服陪审团，Musk早在2018年就知道了营利化计划，但直到2023年才起诉）；微软协助违约的指控随之失效；赔偿请求也因时效被驳回。陪审团甚至没有讨论案件实质。

这个案子最终没有产生任何法律后果，唯一的收获是大量内部邮件和权力斗争细节被公开——包括Musk 2017年提议把OpenAI并入Tesla、Altman被罢免又回归的内部代号叫"The Blip"等。The Verge的总结最精准："除了晾晒脏衣服之外什么都没完成。"

主题深度讨论：Codex团队的9条实战心法——核心就一句话：别打断Agent的循环

Codex工程师Jason Lou在GitHub发布了一篇叫"Codex Maxing"的帖子，分享了他从"只用Codex写代码"到"把Codex当成整个工作操作系统"的转变过程中总结的9条实践。节目主持人认为这9条的共同主题是：如何让Agent持续工作、不被你的操作习惯打断。

1. 长期持久线程（Mono Thread）

不再为每个任务开新对话。Codex的上下文压缩能力已经足够好，可以维护少量长期存活的线程——每个关键工作流一个。Jason的"首席参谋长"线程已经持续运行数周。线程的价值不只是记忆，而是积累了关于"你关心什么"的隐性理解。

2. 用语音输入

不是图快，而是解锁一种完全不同的交互方式。打字会逼你把想法整理好再输入，语音允许你"漫谈"——提供更多背景、表达不确定性、说出你知道的和不知道的。Jason的原话："很多计划在模型接触到你思维的混乱版本而非打磨版本时会变得更好。"

3. Steer功能：边看边调

传统AI交互是"提问→等待→审查→修改→重复"。Codex的Steer功能允许你在Agent工作的同时补充和修正指令，不用等它做完。你和Agent在并行工作，不再轮流。语音是Steer的最佳搭配——看到Agent在做什么，直接用语音补一句修正。

4. 结构化记忆：让工作留下痕迹

Codex有原生记忆功能，但Jason认为那只适合存稳定偏好。真正重要的是让线程中的学习成果被"序列化"到持久文件中——他用Obsidian搭了一套文件系统，顶层有一个agents.md文件指示Agent"当你学到新东西时，更新vault中的相关页面"。这样即使线程被压缩或丢失，知识还在。他的金句："我不希望长期线程静悄悄地积累一堆氛围。我要它写下来——这个人偏好这个，这个项目在等那个，这个决定已经做了，这个循环已经关闭。"

5. 工具使用：让Codex成为证据收集器

给Codex开通电脑操控和浏览器使用权限后，它能读文件、开网页、跑测试、检查视觉输出。关键是知道什么时候用什么工具：真相在本地文件里→电脑操控；需要视觉检查或查外部资源→浏览器；信息在Slack/Gmail/GitHub等系统里→连接器。

6. 移动端远程控制：不坐在电脑前也能推进工作

Codex现在可以通过ChatGPT App远程操控。对长时程任务来说，能在手机上随时Steer一下、检查一下进展、捕捉一个刚冒出来的想法——不用重新打开整个项目。

7. Heartbeat：让线程自己醒来

定时或触发式的自动检查。Jason的"首席参谋长"线程每30分钟自动检查Slack和Gmail，筛选出需要他处理的消息。更强大的案例：Jason让Codex每15分钟检查一个Slack频道的反馈，收到评论后自动重新渲染动画、用电脑操控上传新版本、在Slack里@评审人。当Heartbeat、连接器和电脑操控组合起来，它们不再是独立功能，而是一个持续运转的反馈循环。

8. Goals：给Agent一个明确的完成标准

/goal功能让Agent持续推进一个有明确可验证成功标准的目标，而不是像普通prompt那样"差不多就停了"。这个功能太大，节目主持人预告会单独做一期。

9. 侧面板：在Agent工作的同时你也在工作

Jason认为侧面板是Codex最被低估的部分——它不只是预览窗口，而是你和Agent并行工作的空间。你可以在侧面板里检查、标注Agent的产出，而不用打断它的循环。

节目主持人的总结：这9条的共同底层逻辑是——如何从"你和AI轮流说话"变成"你和AI同时在干活"。不是说轮流交互会消失，也不是说你必须让Agent24小时跑才算用到位，而是对于那些越来越大、越来越长的任务，这种并行工作模式能极大减少你被"等AI做完"卡住的时间。

← 上一篇：AI测试转型困局：管理认知不升级，工具便是昂贵的摆设下一篇：AI 拆书成课：锁定五大关键筛选法则 →