Josh & Ejaaz:为何我们从 Claude Code 转向 OpenAI Codex

CN
15 小時前

撰文:Techub News 整理

在 AI 编程助手竞争白热化的当下,工具的选择往往决定了开发效率与创造力边界。Limitless Podcast 的主持人 Josh 和 Ejaaz 近期进行了一场深度对谈,基于他们从 Anthropic 的 Claude Code 转向 OpenAI 的 Codex(集成于 ChatGPT 5.5)的实际经历,剖析了这两款顶尖产品的现状、核心差异以及未来的趋势。这场讨论不仅提供了直观的功能对比和 Demo 演示,更触及了 AI 工具演进背后的关键概念,对于任何依赖 AI 进行开发或创意工作的从业者而言,都具有极高的参考价值。

市场格局的戏剧性翻转:Codex 的“觉醒”与数据碾压

仅仅几个月前,Claude Code 还是几乎所有软件工程师和企业的首选,安装量遥遥领先。但 Josh 指出,在圣诞节前后,AI 编程的“氛围”发生了根本性转变——从一个“有趣的工具”变成了开发者实际交付代码时使用的利器。而此后,OpenAI 似乎“醒了过来”。

Ejaaz 用一组惊人的数据说明了这种转变:在过去一周,Codex 的安装量超过了 4600 万次,而 Claude Code 则低于 50 万次。这与历史数据形成了鲜明对比,此前 Claude Code 的安装量曾远远超过 Codex。Ejaaz 认为,这种戏剧性翻转的核心原因很简单:OpenAI 推出了更好的模型。他们在过去几周内密集发布的功能,比大多数公司一年内推出的还要多。

为了直观对比,他们制作了一个“比分牌”:OpenAI Codex 以 11 分领先,Anthropic Claude 仅得 2 分。这 11 分的优势来源于多个关键领域的突破。

Codex 的五大核心优势:从“超人”操作到屏幕监控

1. 计算机控制与速度:Claude 率先实现了让 AI 接管桌面、移动光标的能力,但速度较慢,且常遇到障碍,需要用户手动引导。Codex 不仅比普通人操作更快,甚至比 Josh 本人还快。Ejaaz 描述其光标移动速度之快,如同“使用电脑的超人”,并且可以近乎 24/7 不间断运行。

2. 长时程自主性:Codex 能够更智能、更持久地工作。传统上,AI 完成任务依赖一种名为“Ralph Loop”(以《辛普森一家》中坚持不懈的角色命名)的规划模式,即 AI 会持续迭代直至达成目标。Codex 原生集成了这种长时程思考能力,有人甚至观察到它为了完成目标持续“思考”了 36 小时。这对于解决复杂任务至关重要。

3. 浏览器使用与意图理解:Codex 可以接管浏览器,并更智能地理解它所浏览的内容。此前它不具备此能力,而现在它能进行更有目的性的操作。

4. 图像生成集成:OpenAI 近期发布了 ChatGPT Images 2.0 图像生成模型,其质量“绝对令人震惊”,在所有基准测试中击败了包括谷歌 Nano Banana 2.0 Pro 在内的前任领先者。而 Anthropic 目前甚至没有图像生成模型。对于任何涉及视觉工作的用户,直接在软件中使用此功能非常强大。

5. “Chronicle”——秘密的屏幕监控与效率分析:这是 Josh 认为大多数人尚未知晓的 Alpha 功能。Chronicle 会观察你滚动、点击和键入的内容,以此构建关于你的上下文和记忆,无需你主动输入。这带来了一个极其强大的提示:“根据 Chronicle(这个新的记忆功能),我在电脑上做什么事情效率很低?提出一些建议,直接告诉我我需要听到什么。”它会评估你的电脑使用习惯(例如在 Twitter 上滚动的时间),并基于其观察到的实际行为给出真实反馈,以优化你的工作流程。目前该功能仅面向付费会员(每月 100-200 美元订阅),Josh 认为这是未来重要功能的早期迹象。

此外,Codex 近期还推出了“自动审核”功能,能智能区分可能构成系统性威胁的操作和无需批准的操作,自动批准后者,大大简化了用户界面,让用户可以暂时离开电脑而任务照常进行。

Claude 的现存优势:个性、UI 与移动访问

Josh 和 Ejaaz 也指出了 Claude 目前仍保持优势的领域。首先是其“OpenClaw”能力(有趣的是,OpenAI 收购了 OpenClaw)。Claude 的 Dispatch 是其移动应用功能,允许用户远程与 Claude Code 交互,而 Codex 目前尚未提供此功能(团队已承诺会推出)。

其次,在个性化和用户界面方面,Claude 更出色。当使用 LLM 本身而非工具套件时,Claude 的体验更佳,UI 更温暖。此外,两者都发布了“宠物”功能(如屏幕上显示的 Angry Dario),但 Codex 的宠物能作为持久角色存在于整个电脑使用过程中,在后台与你聊天,显示进度,更具趣味性,体现了对用户体验的关注。

实战 Demo 对比:从零构建游戏与草图生成应用

为了验证理论,他们准备了两个具体的演示。

Demo 1:一次性提示构建马里奥风格游戏

Ejaaz 给出了一个提示:要求 AI 创建一个具有未来感、带霓虹灯元素的马里奥风格侧卷轴游戏,包含游戏设计、敌人、陷阱和计分板。他们将此提示输入给 ChatGPT 和 Claude,让各自的编码模型在最高设置下执行。

  • Claude Opus 4.7 的结果:游戏名为“Neon Plumber Moon Base Run”。视觉效果很好,有音效设计,遵循游戏原则。玩家能识别危险(如尖刺)。但逻辑存在缺陷,例如承诺的双跳功能并未正常实现,导致无法收集某些硬币。
  • OpenAI Codex (GPT-5.5) 的结果:游戏同样命名为“Neon Plumber Moon Base Run”。起始画面更基础,但有背景动画。游戏逻辑更好,完全可玩,有清晰的爱心(生命值)显示和计分系统,能获得功能增强道具。虽然也存在一些边缘错误,且没有音乐,但整体游戏体验更流畅、功能更完整。

在构建体验上,Ejaaz 更偏好 Codex。Codex 在接到单一提示后,没有请求任何许可,自行思考并决策推进;而 Claude Code 则会不时向用户求助。对于构建像游戏这样的非生产级项目,这种“放手”模式可能更受欢迎。

Demo 2:从手绘草图生成应用

他们提供了一个手绘(实际由 GPT Image Gen 2.0 生成)的“通用 Limitless 仪表盘应用”草图,将其输入模型。

  • Claude 的结果:生成了一个仪表盘,但风格基础且可预测。页面文本和图形元素很多,它推断出了旅行预算等功能(尽管提示未明确要求)。然而,它创建的是一个旅行规划板,而非围绕 Limitless Podcast 的仪表盘,可能与提示理解有关。
  • OpenAI Codex 的结果:界面更简洁、干净,没有追求未来感或霓虹风格。提供了一个五日旅行计划的基本信息,有多个标签页,视觉效果更好。虽然同样不是草图指定的内容,但设计更易于理解,不那么密集,且看起来已经连接到数据(顶部有“重新优化”开关)。Josh 认为 Codex 在这方面“完全碾压”,更准确地还原了原始纸张上的设计。

两个演示均显示 Codex 在逻辑实现和功能完整性上更胜一筹。

超越模型本身:“AI 模型套具”与“Vanilla Maxing”哲学

Ejaaz 指出,两大公司的模型之所以能如此快速进步,一个关键因素是“AI 模型套具”。这指的是在基础模型之上添加的层,包括预设的提示词、模型运行的环境以及确保模型以特定方式行为和发声的策略。这也解释了为何 Claude 的个性优于 ChatGPT。

Cursor 近期将其套具 Cursor SDK 通过 API 开放,这具有重要意义。批评者曾认为 Cursor 只是一个 AI 包装器,但事实证明,这个“包装器”或“套具”能让模型变得更智能。如果将 Cursor 的套具应用于 GPT-5.5 和 Claude Opus 4.7,得到的模型比原始基础模型更聪明、更高效。这意味着,尽管 AI 实验室投入巨资训练模型,但初创公司通过构建更好的“套具”也能创造卓越产品。套具与模型本身已密不可分,是 valuable moat。

Josh 进一步阐述了“套具”在构建“超级应用”中的作用。每个公司都试图打造一个全能的操作系统级应用,让 AI 成为其基础。OpenClaw 在此方面早期表现卓越。本周,Sam Altman(萨姆·奥尔特曼)宣布用户现在可以将其 ChatGPT 账户连接到 OpenClaw 生成令牌,这可能是将 OpenClaw 深度集成到 Codex 的多步计划开端。OpenAI 拥有 OpenClaw,虽然承诺保持开源,但有能力直接集成到自家产品中。Codex 的开发者也确认,原生编辑器、iOS 应用、完整浏览器和 OpenClaw 等功能都将到来。

然而,Ejaaz 指出 OpenClaw 的热度已消退,因为尽管这些工具处于前沿水平,但难以扩展到实际应用。用户不敢将其集成到存有个人文件的桌面,曾出现过访问信用卡数据或删除旧婚礼照片等恐怖故事。相比之下,在品牌信誉下提供的工具(如 ChatGPT Codex、Claude Cowork 或 NVIDIA 的企业级安全版本 NemoClaw)更能让人安心使用。

这引出了 Josh 推崇的“Vanilla Maxing”哲学:你应该 100% 使用原厂工具。很多人陷入使用各种不同仓库、技能和插件的情况,但现实是,AI 实验室的迭代速度足够快,他们会直接将功能集成到原生应用中。因此,最好的策略就是“Vanilla Maxing”——使用官方提供的工具,无需急于尝试前沿但可能不安全的外部工具。

未来展望与个人使用栈

Ejaaz 总结道,目前并没有明确的赢家,但他倾向于 Codex GPT-5.5。不过叙事转换如此之快,Claude 仍可能追赶上来。一个未被讨论和演示的模型是Claude Mythos,它在几周前伪发布,在所有基准测试中都技术上优于 5.5,但 Anthropic 因其“过于危险”和“网络安全风险”而未开放访问(美国战争部的 Peter Heskett 也提及此担忧)。OpenAI 则创建了 Mythos 级别的模型并使其对所有人可用。这或许也源于 Anthropic 计算资源的不足。

关于个人使用栈,Josh 表示他已完全转向 Codex,用于所有困难任务。但他认为,作为 LLM 或聊天机器人,GPT-5.5 略逊于 Opus 4.7,后者个性更温暖、更精准,更能理解他的意图。因此,在构建复杂项目时,他用 Opus 4.7 作为“协调者”,Codex 作为“执行者”。他还发现 Opus 4.7 在某些方面不如 4.6,例如在写作或文本消化任务上,他仍使用 Opus 4.6。

Ejaaz 的栈则更多样化。对于研究,他开始转向 GPT-5.5,因为它能进行更长时间、更深入的讨论。他举例测试了关于 AI 电力堆栈和投资标的的提示,5.5 完全超越了 4.7。但他仍因个性原因使用 4.7。总体而言,他认为 OpenAI 正处于“一代人的奔跑”中,可能很快会修复现有问题。

Josh 最后鼓励用户亲自尝试两款工具,用实际提示进行测试。无论你从事何种工作,只要使用电脑,AI 都可能帮助你更高效地完成任务,或助力你实现一直想做的爱好和副业。这场竞争的最大赢家是用户,因为每月仅需 20 美元,就能获得所有这些前沿智能和能力。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下載

X

Telegram

Facebook

Reddit

複製鏈接