六周。这就是Anthropic从Opus 4.7到Opus 4.8所花费的时间。
新模型在基准测试中更快更聪明,并配备了一系列新功能——但价格没有变化:输入令牌每百万5美元,输出令牌每百万25美元,跟以前一样。
还有一种快速模式,该模式以2.5倍的速度运行相同的模型,输入每百万10美元,输出每百万50美元。Anthropic表示,这个价格现在比以前模型的快速模式便宜三倍,这是一种很好的表述方式,说明以前的价格要昂贵得多。
SWE-bench Pro可能是最重要的基准测试,值得关注,以了解这个模型的表现如何。它衡量一个AI是否能够真正解决来自真实生产代码库的复杂多语言软件工程问题——以通过的问题比例进行评分。
在该测试中,Opus 4.8达到了69.2%,比Opus 4.7的64.3%有所提高。OpenAI的GPT-5.5得分为58.6%,而谷歌的Gemini 3.1 Pro得分为54.2%。对于同一价格点的模型来说,这是一个有意义的跃进。
在对人类最后考试——跨越众多学科的专家级问题,按正确百分比评分——中,Opus 4.8在没有工具的情况下达到了49.8%,使用工具时达到了57.9%,领先于所有三个竞争对手。OSWorld-Verified测试真实世界计算机使用任务,比如导航软件用户界面,得分为83.4%,略微超过了Opus 4.7的82.8%。
唯一的失利:Terminal-Bench 2.1,它测量AI在命令行任务上的表现。GPT-5.5以78.2%领先,而Opus 4.8得分为74.6%——比Opus 4.7的66.1%有所提高,也超过了Gemini的70.3%,但第二名仍然是失利。
五种思考方式
Anthropic现在允许用户控制模型思考的难度。“高”是默认设置,能够很好地处理大多数任务,而“额外”——在Claude Code中称为“xhigh”——则为更难的问题花费更多计算。“最大”是深水区。“低”和“中”则为同一任务分配较少的令牌,以节省一些时间,换取准确性。
这一努力控制与claude.ai和Cowork中的模型选择器并排放置,适用于所有计划。Anthropic表示,默认高使用的令牌大致与Opus 4.7的默认设置相同,但结果更好——这要么是令人印象深刻的工程,要么是良好的信息传递,可能两者都是。
同样重要的是要记住,Anthropic为Opus设计的新分词器每个任务使用的令牌更多。因此,Claude用户不可避免地会花费更多的钱来完成工作,如果他们选择Opus而不是Claude Sonnet——一个能力较弱的模型,但可能足够应对日常任务和不达到前沿科学或编码层次的复杂问题。
Claude Code中的速率限制也提高了,以吸收“额外”和“最大”设置产生的更高令牌支出。
几乎与Claude Mythos一样安全
Anthropic的对齐团队表示,Opus 4.8“在我们衡量支持用户自主和以用户最佳利益行事的亲社会特征方面达到了新高。”更具体地说:欺骗率和误用合作率明显低于Opus 4.7,并与Claude Mythos Preview——Anthropic最严格的模型相当。
Opus 4.8比4.7更不容易放过自身代码中的bug。
这种对比需要背景说明。Mythos完全是高于Opus的一个级别——Anthropic将其描述为“比我们的Opus模型更大、更智能。”它目前仅作为预览版存在,供少数经过审核的组织通过Project Glasswing进行网络安全工作。
英国的AI安全研究所发现,它能够自主完成“最后的任务”,这是一个32步的企业网络攻击模拟,通常需要人为红队花费20小时。这就是它尚未出售的原因。Anthropic表示,正在进行更强的网络安全保护,并预计将在“接下来的几周”内向所有人推出Mythos级模型。
今天还推出:在Claude Code中的动态工作流,现为研究预览。该功能使Claude能够编写自己的编排脚本,并在单个会话中启动并行子代理,验证其输出,并反馈——与Hermes一段时间以来所做的工作类似。
动态工作流适用于企业、团队和最大计划的用户,Anthropic明确表示,它们消耗的令牌比标准的Claude Code会话显著更多。
日益扩大的价格差距
Anthropic的5美元/25美元定价与中国最近的做法相比显得非常不同。
DeepSeek V4 Pro上周将75%的折扣永久化:每百万输入令牌0.435美元,每百万输出令牌0.87美元。小米MiMo V2.5 Pro通过像OpenRouter这样的供应商以相同的价格运行。
Anthropic的快速模式每百万输入10美元,输出50美元——比标准的Opus 4.8本身还要贵,大约是DeepSeek V4 Pro每个输出令牌的57倍。企业在美国模型上的推理支出已达到数百万美元。尽情挥霍Opus,您的企业可能迅速耗费数百万美元。
Anthropic对价格差距的回应是质量和安全。在SWE-bench Pro上,Opus 4.8击败了两种中国模型。在对齐方面,它们都无法接近Anthropic公布的基准。
这些因素在生产环境中至关重要,特别是在一个模型与不良输入默默合作是一种实际风险的领域——受监管的行业、法律工作,以及任何“看起来没问题”的案例都不是可接受的事后报告。对于其他所有人来说,这一差距是难以忽视的。
我们进行了测试
我们进行了一次快速编码测试,创建了一个3D僵尸游戏,以查看Claude Opus 4.8与ChatGPT和DeepSeek这两个美国和中国最受欢迎的竞争对手的比较。我们将Opus 4.8设置为默认高,将GPT-5.5设置为高努力,将DeepSeek V4 Pro设置为高努力——三个模型,一个提示,没有重试。
GPT-5.5第一个完成。它的游戏没有僵尸视觉效果,也没有音效。它快速,没错,但完全没有按要求进行。
DeepSeek V4 Pro第二名完成,拥有鼠标移动、实际的僵尸角色、音效、出色的机制和干净的美学。这方面没有投诉。
Opus 4.8花费的时间大约是GPT-5.5的三倍,但提供了最佳的开场画面、最佳的僵尸设计、最佳的游戏机制和不错的音效。它的速度最慢,但输出质量最好。不过,考虑到成本差距,这可能不足以证明使用它比DeepSeek更划算。
所有游戏都可以在我们的Itch.io个人资料上找到。GPT-5.5生成了Zombie Typing,Opus生成了Typing Dead,DeepSeek v4 Pro生成了一个没有名称的游戏,让你直接进入动作。我们称之为TypeSeek。
完整的比较评论正在进行中。现在:Claude Opus 4.8在这样的任务中比GPT-5.5和Opus 4.7产生了更好的代码,且价格与Anthropic自4.7以来所收取的相同。那些已经支付每百万5美元的开发者现在免费得到了更好的模型。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。