Josh & Ejaaz：为何我们从 Claude Code 转向 OpenAI Codex

撰文：Techub News 整理

在 AI 编程助手竞争白热化的当下，工具的选择往往决定了开发效率与创造力边界。Limitless Podcast 的主持人 Josh 和 Ejaaz 近期进行了一场深度对谈，基于他们从 Anthropic 的 Claude Code 转向 OpenAI 的 Codex（集成于 ChatGPT 5.5）的实际经历，剖析了这两款顶尖产品的现状、核心差异以及未来的趋势。这场讨论不仅提供了直观的功能对比和 Demo 演示，更触及了 AI 工具演进背后的关键概念，对于任何依赖 AI 进行开发或创意工作的从业者而言，都具有极高的参考价值。

市场格局的戏剧性翻转：Codex 的“觉醒”与数据碾压

仅仅几个月前，Claude Code 还是几乎所有软件工程师和企业的首选，安装量遥遥领先。但 Josh 指出，在圣诞节前后，AI 编程的“氛围”发生了根本性转变——从一个“有趣的工具”变成了开发者实际交付代码时使用的利器。而此后，OpenAI 似乎“醒了过来”。

Ejaaz 用一组惊人的数据说明了这种转变：在过去一周，Codex 的安装量超过了 4600 万次，而 Claude Code 则低于 50 万次。这与历史数据形成了鲜明对比，此前 Claude Code 的安装量曾远远超过 Codex。Ejaaz 认为，这种戏剧性翻转的核心原因很简单：OpenAI 推出了更好的模型。他们在过去几周内密集发布的功能，比大多数公司一年内推出的还要多。

为了直观对比，他们制作了一个“比分牌”：OpenAI Codex 以 11 分领先，Anthropic Claude 仅得 2 分。这 11 分的优势来源于多个关键领域的突破。

Codex 的五大核心优势：从“超人”操作到屏幕监控

1. 计算机控制与速度：Claude 率先实现了让 AI 接管桌面、移动光标的能力，但速度较慢，且常遇到障碍，需要用户手动引导。Codex 不仅比普通人操作更快，甚至比 Josh 本人还快。Ejaaz 描述其光标移动速度之快，如同“使用电脑的超人”，并且可以近乎 24/7 不间断运行。

2. 长时程自主性：Codex 能够更智能、更持久地工作。传统上，AI 完成任务依赖一种名为“Ralph Loop”（以《辛普森一家》中坚持不懈的角色命名）的规划模式，即 AI 会持续迭代直至达成目标。Codex 原生集成了这种长时程思考能力，有人甚至观察到它为了完成目标持续“思考”了 36 小时。这对于解决复杂任务至关重要。

3. 浏览器使用与意图理解：Codex 可以接管浏览器，并更智能地理解它所浏览的内容。此前它不具备此能力，而现在它能进行更有目的性的操作。

4. 图像生成集成：OpenAI 近期发布了 ChatGPT Images 2.0 图像生成模型，其质量“绝对令人震惊”，在所有基准测试中击败了包括谷歌 Nano Banana 2.0 Pro 在内的前任领先者。而 Anthropic 目前甚至没有图像生成模型。对于任何涉及视觉工作的用户，直接在软件中使用此功能非常强大。

5. “Chronicle”——秘密的屏幕监控与效率分析：这是 Josh 认为大多数人尚未知晓的 Alpha 功能。Chronicle 会观察你滚动、点击和键入的内容，以此构建关于你的上下文和记忆，无需你主动输入。这带来了一个极其强大的提示：“根据 Chronicle（这个新的记忆功能），我在电脑上做什么事情效率很低？提出一些建议，直接告诉我我需要听到什么。”它会评估你的电脑使用习惯（例如在 Twitter 上滚动的时间），并基于其观察到的实际行为给出真实反馈，以优化你的工作流程。目前该功能仅面向付费会员（每月 100-200 美元订阅），Josh 认为这是未来重要功能的早期迹象。

此外，Codex 近期还推出了“自动审核”功能，能智能区分可能构成系统性威胁的操作和无需批准的操作，自动批准后者，大大简化了用户界面，让用户可以暂时离开电脑而任务照常进行。

Claude 的现存优势：个性、UI 与移动访问

Josh 和 Ejaaz 也指出了 Claude 目前仍保持优势的领域。首先是其“OpenClaw”能力（有趣的是，OpenAI 收购了 OpenClaw）。Claude 的 Dispatch 是其移动应用功能，允许用户远程与 Claude Code 交互，而 Codex 目前尚未提供此功能（团队已承诺会推出）。

其次，在个性化和用户界面方面，Claude 更出色。当使用 LLM 本身而非工具套件时，Claude 的体验更佳，UI 更温暖。此外，两者都发布了“宠物”功能（如屏幕上显示的 Angry Dario），但 Codex 的宠物能作为持久角色存在于整个电脑使用过程中，在后台与你聊天，显示进度，更具趣味性，体现了对用户体验的关注。

实战 Demo 对比：从零构建游戏与草图生成应用

为了验证理论，他们准备了两个具体的演示。

Demo 1：一次性提示构建马里奥风格游戏

Ejaaz 给出了一个提示：要求 AI 创建一个具有未来感、带霓虹灯元素的马里奥风格侧卷轴游戏，包含游戏设计、敌人、陷阱和计分板。他们将此提示输入给 ChatGPT 和 Claude，让各自的编码模型在最高设置下执行。

Claude Opus 4.7 的结果：游戏名为“Neon Plumber Moon Base Run”。视觉效果很好，有音效设计，遵循游戏原则。玩家能识别危险（如尖刺）。但逻辑存在缺陷，例如承诺的双跳功能并未正常实现，导致无法收集某些硬币。
OpenAI Codex (GPT-5.5) 的结果：游戏同样命名为“Neon Plumber Moon Base Run”。起始画面更基础，但有背景动画。游戏逻辑更好，完全可玩，有清晰的爱心（生命值）显示和计分系统，能获得功能增强道具。虽然也存在一些边缘错误，且没有音乐，但整体游戏体验更流畅、功能更完整。

在构建体验上，Ejaaz 更偏好 Codex。Codex 在接到单一提示后，没有请求任何许可，自行思考并决策推进；而 Claude Code 则会不时向用户求助。对于构建像游戏这样的非生产级项目，这种“放手”模式可能更受欢迎。

Demo 2：从手绘草图生成应用

他们提供了一个手绘（实际由 GPT Image Gen 2.0 生成）的“通用 Limitless 仪表盘应用”草图，将其输入模型。

Claude 的结果：生成了一个仪表盘，但风格基础且可预测。页面文本和图形元素很多，它推断出了旅行预算等功能（尽管提示未明确要求）。然而，它创建的是一个旅行规划板，而非围绕 Limitless Podcast 的仪表盘，可能与提示理解有关。
OpenAI Codex 的结果：界面更简洁、干净，没有追求未来感或霓虹风格。提供了一个五日旅行计划的基本信息，有多个标签页，视觉效果更好。虽然同样不是草图指定的内容，但设计更易于理解，不那么密集，且看起来已经连接到数据（顶部有“重新优化”开关）。Josh 认为 Codex 在这方面“完全碾压”，更准确地还原了原始纸张上的设计。

两个演示均显示 Codex 在逻辑实现和功能完整性上更胜一筹。

超越模型本身：“AI 模型套具”与“Vanilla Maxing”哲学

Ejaaz 指出，两大公司的模型之所以能如此快速进步，一个关键因素是“AI 模型套具”。这指的是在基础模型之上添加的层，包括预设的提示词、模型运行的环境以及确保模型以特定方式行为和发声的策略。这也解释了为何 Claude 的个性优于 ChatGPT。

Cursor 近期将其套具 Cursor SDK 通过 API 开放，这具有重要意义。批评者曾认为 Cursor 只是一个 AI 包装器，但事实证明，这个“包装器”或“套具”能让模型变得更智能。如果将 Cursor 的套具应用于 GPT-5.5 和 Claude Opus 4.7，得到的模型比原始基础模型更聪明、更高效。这意味着，尽管 AI 实验室投入巨资训练模型，但初创公司通过构建更好的“套具”也能创造卓越产品。套具与模型本身已密不可分，是 valuable moat。

Josh 进一步阐述了“套具”在构建“超级应用”中的作用。每个公司都试图打造一个全能的操作系统级应用，让 AI 成为其基础。OpenClaw 在此方面早期表现卓越。本周，Sam Altman（萨姆·奥尔特曼）宣布用户现在可以将其 ChatGPT 账户连接到 OpenClaw 生成令牌，这可能是将 OpenClaw 深度集成到 Codex 的多步计划开端。OpenAI 拥有 OpenClaw，虽然承诺保持开源，但有能力直接集成到自家产品中。Codex 的开发者也确认，原生编辑器、iOS 应用、完整浏览器和 OpenClaw 等功能都将到来。

然而，Ejaaz 指出 OpenClaw 的热度已消退，因为尽管这些工具处于前沿水平，但难以扩展到实际应用。用户不敢将其集成到存有个人文件的桌面，曾出现过访问信用卡数据或删除旧婚礼照片等恐怖故事。相比之下，在品牌信誉下提供的工具（如 ChatGPT Codex、Claude Cowork 或 NVIDIA 的企业级安全版本 NemoClaw）更能让人安心使用。

这引出了 Josh 推崇的“Vanilla Maxing”哲学：你应该 100% 使用原厂工具。很多人陷入使用各种不同仓库、技能和插件的情况，但现实是，AI 实验室的迭代速度足够快，他们会直接将功能集成到原生应用中。因此，最好的策略就是“Vanilla Maxing”——使用官方提供的工具，无需急于尝试前沿但可能不安全的外部工具。

未来展望与个人使用栈

Ejaaz 总结道，目前并没有明确的赢家，但他倾向于 Codex GPT-5.5。不过叙事转换如此之快，Claude 仍可能追赶上来。一个未被讨论和演示的模型是Claude Mythos，它在几周前伪发布，在所有基准测试中都技术上优于 5.5，但 Anthropic 因其“过于危险”和“网络安全风险”而未开放访问（美国战争部的 Peter Heskett 也提及此担忧）。OpenAI 则创建了 Mythos 级别的模型并使其对所有人可用。这或许也源于 Anthropic 计算资源的不足。

关于个人使用栈，Josh 表示他已完全转向 Codex，用于所有困难任务。但他认为，作为 LLM 或聊天机器人，GPT-5.5 略逊于 Opus 4.7，后者个性更温暖、更精准，更能理解他的意图。因此，在构建复杂项目时，他用 Opus 4.7 作为“协调者”，Codex 作为“执行者”。他还发现 Opus 4.7 在某些方面不如 4.6，例如在写作或文本消化任务上，他仍使用 Opus 4.6。

Ejaaz 的栈则更多样化。对于研究，他开始转向 GPT-5.5，因为它能进行更长时间、更深入的讨论。他举例测试了关于 AI 电力堆栈和投资标的的提示，5.5 完全超越了 4.7。但他仍因个性原因使用 4.7。总体而言，他认为 OpenAI 正处于“一代人的奔跑”中，可能很快会修复现有问题。

Josh 最后鼓励用户亲自尝试两款工具，用实际提示进行测试。无论你从事何种工作，只要使用电脑，AI 都可能帮助你更高效地完成任务，或助力你实现一直想做的爱好和副业。这场竞争的最大赢家是用户，因为每月仅需 20 美元，就能获得所有这些前沿智能和能力。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。