美国政府表示中国最好的人工智能模型落后。专家们并不完全确定。

美国政府机构对中国最强大的人工智能发布了判决：落后八个月，随着时间的推移，差距越来越大。互联网阅读了方法论并开始提出问题。

CAISI——人工智能标准与创新中心，隶属于NIST——于5月1日发布了对DeepSeek V4 Pro的评估。结论是：DeepSeek的开源旗舰“落后于前沿约8个月。”

CAISI还称这是迄今为止对其评估的最强大的中国人工智能模型。

评分系统

CAISI并不像大多数评估者那样计算基准分数的平均值。相反，它应用项目反应理论——一种来自标准化测试的统计方法——通过跟踪每个模型解决和未解决的问题，在五个领域的九个基准上估计每个模型的潜在能力：网络安全、软件工程、自然科学、抽象推理和数学。

IRT估计的Elo分数：GPT-5.5为1260分，Anthropic的Claude Opus 4.6为999分。DeepSeek V4 Pro的得分约为800（±28），与749的GPT-5.4 mini非常接近。在CAISI的系统中，DeepSeek更接近于旧一代的GPT mini，而不是Opus。

基准中的分数系统以标准化测试评分学生的方式对模型进行评分——不是按原始正确百分比，而是通过加权解决和未解决的问题，产生的得分估计仅在同一评估中的其他模型中才有意义。得分越高，模型在一般意义上越好，最佳模型的得分成为评估模型能力的参考点。

无法重现CAISI的结果，因为九个基准中的两个是非公开的，而在这两个基准中差距最大。例如，GPT-5.5在CAISI的网络安全测试CTF-Archive-Diamond中得分71%，而DeepSeek仅约32%。

在公开基准上，情况有所变化。GPQA-Diamond——博士级科学推理，以正确百分比评分——使DeepSeek得分90%，落后于Opus 4.6的91%。数学奥林匹克基准（OTIS-AIME-2025，PUMaC 2024，SMT 2025）使DeepSeek分别得分97%、96%和96%。在SWE-Bench Verified——真实的GitHub错误修复，以解决的百分比评分——DeepSeek得分74%，而GPT-5.5得分81%。DeepSeek自己的技术报告声称V4 Pro与Opus 4.6和GPT-5.4相当。

为了进行成本比较，CAISI筛选出了任何在表现上显著较差或每个token成本显著高于DeepSeek的美国模型。只有一个模型通过了门槛：GPT-5.4 mini。这就是整个美国的前沿，筛选为单一条目。

DeepSeek在7个基准中有5个表现更便宜，甚至击败了OpenAI最小和能力最弱的AI模型。

反驳：差距是更大还是更小？

批评CAISI的方法论并不能完全为DeepSeek辩护。以假名Ex0bit的人工智能开发者直接反击：“没有‘差距’，也没有人落后8个月。我们在每一次闭门的美国发布会上都受到了嘲讽，并以开源权重进行了展示。”

人工分析智能指数v4.0——一个追踪前沿模型智能的评分系统——显示截至2026年5月，OpenAI接近60分，DeepSeek在低50分，差距比一年前紧缩得多。

基于标准化基准，他们的方法显示差距实际上正在缩小。

当DeepSeek首次出现在 2025年1月时，问题是中国是否已经赶上了。美国实验室急于应对。斯坦福大学的2026年人工智能指数——于4月13日发布——报告称Claude Opus 4.6与中国Dola-Seed-2.0 Preview之间的Arena排行榜差距正在缩小，现在只有2.7%。

CAISI计划在不久的将来发布更完整的IRT方法论报告。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

美国政府表示中国最好的人工智能模型落后。专家们并不完全确定。

评分系统

反驳：差距是更大还是更小？

Decrypt的精选文章

目录

相关文章