纠结 Claude Code 还是 Codex?一个贵 4 倍但 SWE-bench 高 3%,一个便宜但社区说"更稳定"。这里有最短路径:同一仓库、同一任务的端到端实测——从 UI 克隆到推荐管线,看清每一分钱花在哪。

摘要

  • 同样预算写更多代码Codex
  • 更完整不敷衍Codex,更倾向完成整个 PR 并补测试
  • 数据分析与快速原型Codex,更便宜,开发循环更稳定
  • 代码质量Codex,代码质量和规范性更好
  • 前端 UI 还原度Claude Code,UI 保真度更高
  • 大规模重构Claude Code,更擅长大规模架构调整
  • 复杂任务与系统操作Claude Code,SWE-bench 77.2,OSWorld 61.4
  • 首字响应速度Claude Code,Vertex TTFT ≈1.67s
  • 超长上下文支持Claude Code,多云部署可达 1M 上下文
  • 成本控制与调优Codex,可调推理深度,灵活控制速度和费用
  • 端到端项目成本Codex,约 $2.50 vs Claude 约 $10.26
  • 表现稳定性Codex,运行稳定,调试循环更可靠
  • 文档写作Claude Code,文档生成质量更高
  • 图表生成(XML/PlantUML)Claude Code,结构化图表生成更擅长

端到端开发成本对比

Composio 在同一仓库、同一 MCP 环境下做了实测对比,汇总了不同场景的 Token 与成本差异:

场景/维度Claude Code(Sonnet 4.5)Codex(GPT‑5‑codex)结论
UI 克隆(Figma 参考)Token~5,000,000~250,000Codex 更省 Token;Claude UI 保真更高
Lint/Schema 修复 Token~4,000,000~100,000Codex 修复更高效、更省
推荐管线(Schema+API+UI)Token/用时~1,189,670;约 10 分钟~309,000;约 25 分钟(未做 Expo UI)Claude 更快但后续出现 Schema/API 问题;Codex 更稳
整体验证成本约 $10.26(18M 输入 + 117k 输出)约 $2.50(600k 输入 + 103k 输出)Codex 总体更省钱
计价假设(用于 Codex 估算)输入 $1.25/M,输出 $10/M引文用于估算的单价
成本趋势长会话、UI 工作量大时更贵大型编码任务更省 Token“实现与修复”选 Codex,“设计/UI”选 Claude

数据来自 Composio 的实测文章 Claude Sonnet 4.5 vs. GPT-5 Codex: Best model for agentic coding

API 与规格

特性OpenAI GPT-5 CodexAnthropic Claude Sonnet 4.5优势方
模型定位专为代理式编程优化的 GPT-5 版本复杂代理和编程任务的最佳模型-
发布时间2025 年 9 月 23 日2025 年 9 月 29 日Claude(更新)
上下文窗口400K tokens200K (标准)GPT-5 Codex
最大输出128K tokens64K tokensGPT-5 Codex
知识截止2024 年 9 月 30 日2024 年 4 月GPT-5 Codex
多模态支持文本、图像(输入)文本、图像(输入)平手
输入定价$1.25/M$3.00/MGPT-5 Codex (2.4x)
输出定价$10.00/M$15.00/MGPT-5 Codex (1.5x)
缓存折扣90% ($0.125/M)90%平手

数据来自官方文档:

API 详细基准测试对比

两款模型在 10 个权威基准测试中的表现对比:

基准测试测试内容GPT-5 CodexClaude Sonnet 4.5优势方
Terminal-Bench Hard代理编程与终端使用36%33%GPT-5 Codex
τ²-Bench Telecom代理工具使用87%78%GPT-5 Codex
AA-LCR长上下文推理69%66%GPT-5 Codex
Humanity’s Last Exam推理与知识25.6%17.3%GPT-5 Codex
MMLU-Pro推理与知识87%88%Claude Sonnet 4.5
GPQA Diamond科学推理84%83%GPT-5 Codex
LiveCodeBench编程能力84%71%GPT-5 Codex
SciCode科学编程41%45%Claude Sonnet 4.5
IFBench指令遵循74%57%GPT-5 Codex
AIME 2025竞赛数学99%88%GPT-5 Codex

胜负统计:GPT-5 Codex 在 8/10 项测试中领先。

数据来自 Artificial Analysis - Intelligence Evaluations

社区反馈与真实用户体验

Reddit 和 Hacker News 讨论总结

通过浏览 Reddit 的 r/ChatGPTCoding、r/ClaudeAI 板块和 Hacker News 上数百条真实用户反馈,整理出以下关键观点:

支持 GPT-5 Codex 的观点

“GPT-5 Codex 在复杂问题和项目级理解上表现更好。” - Reddit 用户

“更易控制,执行精确,适合有经验的开发者。” - Hacker News 讨论

“在大规模重构上表现更好,而且成本低得多。” - Reddit r/ChatGPTCoding

支持 Claude Sonnet 4.5 的观点

“Claude 的规划和架构能力更强,UI 保真度更高。” - Reddit 用户

“多工具工作流处理更好,对于绿地项目更友好。” - Hacker News 讨论

“代码输出更易读,虽然有时会过于’热情’地扩展请求。” - Reddit r/ClaudeAI

混合观点

“两者各有优势,取决于具体任务类型。对于快速原型,我用 Claude;对于生产代码,我用 GPT-5 Codex。” - Reddit 用户

“Claude 在前端任务上更好,GPT-5 Codex 在后端逻辑上更强。” - Hacker News 讨论

SWE-bench Verified 对比

用户提供的数据

模型得分备注
Claude Sonnet 4.577.2% - 82.0%标准运行 77.2%,并行测试 82.0%
GPT-5 Codex74.5% - 77%-

Anthropic 官方数据(2025 年 9 月 29 日)

模型SWE-bench Verified 得分备注
Claude Sonnet 4.577.2% (标准运行)✅ 与用户数据匹配
Claude Sonnet 4.582.0% (并行测试)✅ 与用户数据匹配
GPT-5 Codex74.5%✅ 与用户数据匹配
GPT-572.8%-
Gemini 2.5 Pro67.2%-

验证结果:用户提供的 SWE-bench Verified 数据与官方数据基本一致

数据来源

为什么最近社交媒体都在夸 Codex?

最近浏览社交媒体时,发现一个明显转折。大家都在夸 Codex 好用,为什么会这样?关键在于 OpenAI 在 2025 年 9 月 发布了 GPT-5-Codex,把 AI 编程工具从代码补全器升级成了能独立完成复杂任务的 AI 工程师。

风评变化过程

2025 年 9 月之前,大家更推崇 Claude。尤其是 OpenAI 停掉旧版 Codex API 之后,Claude 3 Opus 和 Claude 3.5 Sonnet 在编程能力上获得了更多好评。当时开发者普遍认为,Claude 更擅长理解代码、处理大项目,准确性也更高。

2025 年 9 月之后,风向明显变了。通过浏览大 V 观点、翻阅 Reddit 帖子,也用了 Deep Research 功能搜索验证后,发现大家的说法主要集中在三点:

  1. Codex 变成了专业选手 - OpenAI 把 GPT-5 专门优化成了软件工程版本。它不只是写代码,还能自己重构、调试、跑长期任务。相比之下,Claude Code 在使用过程中经常会卡住,或者假装自己完成了任务,实际上并没有做完。

  2. 会动态调整效率 - OpenAI 的数据显示,Codex 处理复杂任务时会花两倍时间深度思考,遇到简单任务又能快速搞定。这种智能调节让它应对各种难度都游刃有余。

  3. 产品形态大升级 - Codex 不再只是个 API 接口,而是演变成包含命令行工具、IDE 插件、云端环境的完整系统,更适合大团队使用。

实际使用 Codex 和 Claude Code 后的感受

9 月前:Claude Code 在代码理解深度、处理大项目和代码可靠性上表现更好,适合个人或小团队精细开发。

9 月后:真正尝试后发现,Codex 可以完成那些更复杂、更耗时的任务。比如爬取多个网页数据,按规则写代码分析,套用公式计算,最后整理成一篇像样的研究报告,这种需要几个小时的复杂流程,Codex 都能稳定完成。而之前想让 Claude Code 做的一些长时间任务,它总是中途卡住或者没做完就说完成了,但 Codex 却能真正把活干完。

总结:Codex 更像个能独立干活的 AI 工程师,可以放心交给它长时间复杂任务。Claude Code 更像个能力强的编程助手,适合 Copilot 模式的实时协作。

使用场景矩阵

根据个人经验,我总结了一个使用场景矩阵:

场景项目规模预算推荐工具理由
原型开发小型Codex成本低,快速迭代
MVP 开发中型Claude Code规划能力强,UI 好
生产环境大型Codex成本效益,代码可靠
前端项目任意任意Claude CodeUI 保真度高
后端/算法任意任意Codex逻辑清晰,性能好
代理应用任意Claude Code代理能力更强

数据来源

本文数据来自以下高可信度来源:

官方文档

权威第三方评测

API 提供商实测

社区讨论

  • Reddit 的 r/ChatGPTCoding 和 r/ClaudeAI 板块
  • Hacker News
  • 技术博客如 Composio、BinaryVerseAI