OpenAI 于星期四开始 推出 GPT-5.4——迄今为止最强大的模型——当时公司正在努力控制公关危机,估计有 250 万用户采取了针对公司的行动,要么取消订阅,要么在社交媒体上分享抵制信息。
所谓的 QuitGPT 运动 在 OpenAI 公开宣布与美国国防部达成协议的几个小时后爆发,恰好在 Anthropic 公布退出同一合同后——这让 Claude 的制造商 遭到了特朗普总统 和其他政府官员的公开指责。
Anthropic 的争执点在于:国防部拒绝包含明确禁止部署自主武器和对美国公民进行大规模监控的语言。
尽管如此,OpenAI 还是接受了这项交易。首席执行官山姆·阿尔特曼(Sam Altman)一直在回答有关公司声明的安全红线与合同实际语言之间的明显差距的问题,他需要那些用户回来。
GPT-5.4 的推出… 就在 GPT-5.3 发布 后仅两天。
新模型将推理、编码和行动能力整合到一个版本中。它还具有百万个上下文令牌的能力,这让用户在单个会话中处理大量信息时拥有更大的自由。
在纸面上,数据看起来很有前景。在 GDPval——一个测试44种职业知识工作的基准上——GPT-5.4 在 83.0% 的比较中与行业专业人士相匹配或超越,较 GPT-5.2 的 70.9% 有所上升。计算机使用是最大的飞跃:在 OSWorld-Verified上,GPT-5.4 的成功率为 75.0%,而 GPT-5.2 为 47.3%——并且超过了人类基线的 72.4%。
在 BrowseComp 上,深网研究的测试中,它相对于 GPT-5.2 提升了 17 个百分点。100 万个令牌的上下文窗口和中途响应引导功能——允许用户在模型仍在思考时引导模型——完善了主要特征。
该功能通过避免在检测到错误时丢弃所有先前生成的令牌,节省了时间和计算。
谁将受益于 GPT 5.4?
重要的是要注意到有些基准主要是将 GPT-5.4——而大多数情况下,推理设置为特别高的努力,这不仅是免费用户和 Plus 用户无法享受的——与 GPT-5.2 进行比较,完全跳过了 GPT-5.3。
对于已经在使用 GPT-5.3 的用户来说,几个收益可能感觉比图表所暗示的要更为渐进。
程序员最有理由降低期望:在 SWE-Bench Pro 上,从 GPT-5.3-Codex(56.8%)到 GPT-5.4(57.7%)的改进几乎可以忽略不计。与 GPT-5.2 相比,该模型声称完成任务所需的令牌显著减少。
“GPT-5.4 是我们迄今为止最高效的推理模型,与 GPT-5.2 相比,解决问题时使用的令牌显著减少,”OpenAI 表示。
话虽如此,在这个领域的任何改进对通过 API 使用 OpenAI 模型的开发者来说都是积极的,他们是按使用的令牌收费的。一个具有高效思维链的模型可能在成本仅为过度思考以确保达到正确结论的模型的一小部分时提供相同的结果。
还有另一个涉及任何希望现在使用新模型的人的曲折:OpenAI 表示 GPT-5.4 今天将发布,但在撰写本文时尚未提供,因此它可能正在缓慢推出。对于大多数用户来说,最好的模型是 GPT 5.3,并且只能用于即时回复,意味着它提供的答案不需要太多的努力。
依赖思维的用户——OpenAI 对复杂任务的扩展链式推理的术语——仍然在使用 GPT-5.2。换句话说,最有可能推动模型极限的用户是最后一个得到它的。
最明显的受益者是进行文档繁重工作的企业用户。在一个内部电子表格建模基准测试中,GPT-5.4 得分 87.3%,而 GPT-5.2 为 68.4%。法律研究公司 Harvey 表示在其 BigLaw 基准评估中得分 91%。 Mainstay 运行 30,000 个财产税门户,报告称首次尝试成功率达 95%,会话在使用时运行“~3 倍更快,同时使用 ~70% 更少的令牌。”
这就是可能对企业采购团队重要的效率论点——但对于重新考虑是否删除帐户的个人用户来说,推广的难度更大。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。