Codex CLI 实战指南:5 月连发 6 次更新,把 GPT-5.5 装进终端的完整工作流(含跟 Claude Code 搭配方案)

原文首发于公众号「开发者效率局」,欢迎关注获取更多 AI 编程实战。

5 月份 OpenAI Codex CLI 连发了 6 个版本(0.131.0 → 0.135.0),加上 macOS App 26.519 和 26.527,把终端里跑 GPT-5.5 这件事从"凑合能用"推到了"日常主力"。这篇讲清楚 Codex 这套工作流的实际样子,以及怎么跟你已经在用的 Claude Code 搭配起来用。

你为什么也该装一个

我自己是 Claude Code 重度用户,过去一年大部分活都在那里干。所以最开始装 Codex 时心态是"试一下,没准看个热闹"。一周后我开始把它当成日常主力之一——不是替代 Claude Code,而是它擅长的事 Claude Code 不一定擅长

最直观的几个差异点:

  • Codex 跑 GPT-5.5,Claude Code 跑 Opus 4.8。两个模型在某些任务上的偏好不一样:Codex 改 UI 代码更稳,Claude 做架构推理更深
  • Codex App 的 Appshots / 桌面控制:直接把当前 macOS 或 Windows 窗口发给它看,对调试 GUI 应用是降维打击
  • Goals 模式默认开了:你给一个高层目标,它自己拆解 + 跟踪进度
  • 统一 @ mentions:文件、目录、插件、skill 一个 picker 全搞定

你不需要选边站。我现在的实际工作流是两个一起开:分工不同的活派给不同的 agent。

30 秒装上 + 跑通第一个任务

# 装
npm install -g @openai/codex     # 需要 Node.js 22+
# 或 curl 一键
curl -fsSL https://chatgpt.com/codex/install.sh | sh

# 认证
codex auth                        # 用 ChatGPT 账号登录,或填 OPENAI_API_KEY

跑通:

cd your-project
codex -- "show me what this codebase does, then suggest 3 improvements"

第一次跑会进 suggest 模式——默认最安全的档,每个文件改动 / 每条 shell 命令都要你确认。别急着切到 agent 模式——先用一两天 suggest 模式建立信任。

三种操作模式:用错了会出事

模式行为用在哪
suggest(默认)每个改动都问你第一次跑、改关键代码、生产仓库
agent--sandbox workspace-write在 workspace 内自主改文件日常无人值守,跑测试改代码
danger--dangerously-bypass-approvals-and-sandbox完全不问,所有 shell 命令直接跑只能在隔离 VM 里用

最实用的一档是中间的 --sandbox workspace-write:它能改 workspace 里的文件、跑 npm/test 命令,但碰不到 workspace 外的文件、网络受限:

codex --sandbox workspace-write -- "fix all failing tests in tests/auth/"

danger 模式我强烈不建议在本机用。要无人值守,老老实实开一个 Docker container 或 VM。

5 月最值得记的 3 个新功能

1. 统一 @ mentions(0.131.0,5/18)

@ 弹一个 picker,文件 / 目录 / 插件 / skill 全在里面:

> @api-routes refactor these to use Hono syntax, and run @smoke-tests after

好用的关键不是少打几个字符,是减少切换上下文的成本——视线不离 prompt 输入框,要派的活一气写完。

2. Goals 模式(0.133.0,5/21 默认开启)

旧 Codex 是"一次一个 prompt"。Goals 模式是给目标,它自己拆解 + 跟踪进度 + 完成子任务

codex --goal "ship a working OAuth integration for Google SSO,
              including login flow, callback handler, and tests"

屏幕上挂一个进度面板:

Goal: Ship OAuth integration
├── ✓ Set up Google Cloud project credentials  (1 turn)
├── ✓ Add /auth/login route                    (3 turns)
├── ⠿ Implement callback handler               (2 turns, in progress)
├── · Add session storage                      (waiting)
└── · Write integration tests                  (waiting)

Tokens: 124k / blended      Time: 18m

跟 Claude Code 的 Plan Mode + TodoWrite 加起来差不多,但整合度更高——背后维护一个 graph,子任务的依赖、阻塞、回退都自己管。Goals 在使用量限制时会停在当前子任务而不是死循环

3. Appshots + Windows 桌面控制(5/21 + 5/29)

直接操作桌面 GUI 应用——Claude Code 没碰过的领域。

macOS 上按两次 Command 键,当前 frontmost 窗口的截图发给 Codex(叫 Appshots):

[按两次 Cmd 键,把当前 Figma 窗口发过去]

> Look at this Figma frame. Generate the React + Tailwind code that matches it.
  Save to src/components/PricingCard.tsx.

5/29 又加上了 Windows 桌面自动化——不只能看 Windows 窗口,还能主动点击、输入、滚动。从 ChatGPT 移动端或 Mac 远程驱动 Windows 设备。

对前端开发、设计还原、UI 自动化测试,这一个能力顶半个工作流。

一个真实的实战例子:跨仓库任务

Goals 模式 + @ mentions 一起上:

codex --goal "implement feature X in @backend repo,
              update API contract in @api-types,
              add UI in @web-app,
              then write an integration test that runs across all three"

它会:

  1. 起 3 个独立的 worktree(一个仓库一个)
  2. 在 backend 改 handler + DB schema
  3. 在 api-types 更新 TypeScript 定义并发 patch 版本
  4. 在 web-app bump 依赖、调用新接口
  5. 写端到端测试,跑通就算成功

在每个 worktree 里独立 commit,最后给你 3 个分支让你审过再合。它不会替你 push——设计上的红线。

跟 Claude Code 的 Agent Teams 比,Codex 跨仓库工作流更"轻"——不需要预先 TeamCreate,但协调能力没 Agent Teams 那么细。50 行以内的 PR 用 Codex,大重构 Claude Code Agent Teams 更稳。

怎么跟 Claude Code 搭配

场景用谁原因
改 UI / 跟设计稿对照Codex(Appshots)直接看 Figma 截图改代码
跨仓库 featureCodex(Goals + worktrees)一句话起 3 个仓库的活
大规模重构Claude Code(Agent Teams)协调能力更细
全仓库扫描Claude Code(Dynamic Workflows)1000 个 subagent 上限
终端高频小活Claude Code上下文管理更细
Windows 自动化 / 远程桌面Codex唯一能干这事的
跟 GitHub Issue 联动Codex(GitHub MCP + Goals)集成度更高
架构推理 / 设计决策Claude Code(Opus 4.8 + plan)推理质量更深

关键认知:不是"哪个更强",是两个模型擅长不同的事。同时装、按场景挑,是最划算的策略。

5 个必须知道的坑

坑 1:默认模型不一定是 GPT-5.5

旧版本配置文件里写的是 gpt-5.3-codex。升级 CLI 之后老配置不会自动更新:

# ~/.codex/config.toml
model = "gpt-5.5"               # 不是 gpt-5.3-codex
approval_policy = "on-request"
sandbox_mode = "workspace-write"

坑 2:GPT-5.2 / 5.2-Codex 6 月初下线

6/1 是 GPT-5.2 在 GitHub Copilot 里下线的日期,OpenAI 这边 6/5。如果你 pipeline 写死 model 名是 gpt-5.2-codex,赶紧改

坑 3:codex doctor 是你的第一个调试入口

5/28 加的诊断命令,一行查环境 / Git / 终端 / app-server 状态:

codex doctor

任何"为啥不工作"先跑这个。Node 版本太老、PATH 缺失、认证过期都能查出来。

坑 4:danger 模式真的会烧掉你的机器

--dangerously-bypass-approvals-and-sandbox 听着像玩笑名字,实际就是"我同意 AI 跑任何命令"。只能在隔离环境里用。本机用一次踩到 rm -rf 你哭都来不及。

坑 5:Appshots 默认会发送当前窗口的全部内容

包括屏幕上的密码、token、个人信息。派 Codex 看截图前先关掉 1Password、邮件、敏感聊天窗口

总结

5 月 Codex 这 6 个版本叠加起来:

  • suggest / agent / danger 三档自主程度,日常用中间档 workspace-write
  • 统一 @ mentions 减少切换成本
  • Goals 模式默认开启,给目标自己拆解
  • Appshots + Windows 桌面控制是别人没有的能力
  • 跟 Claude Code 不替代、是分工——按场景挑

如果你之前没装过 Codex,这周值得花 30 分钟装一个,跑通 suggest 模式 + 一个 Goal 实战。一旦体验过 Appshots 看着 Figma 写代码,或者用 Goals 起一个跨仓库 feature,你会回不去单一工具的状态。


如果觉得有帮助,欢迎点赞收藏 👍

更多 AI 编程实战,关注公众号「开发者效率局」,每周二/四更新。