Anthropic 造出了一个“太危险”的 AI，然后决定不发布它

这到底是真正的安全自觉，还是一场精心设计的能力营销？

作者：深潮 TechFlow

4月 7 日，Anthropic 做了一件 AI 行业从未有过的事：正式发布了一个模型，然后告诉全世界，你们用不了。

这个模型叫 Claude Mythos Preview。它不是聊天机器人，不是写代码的助手，按照 Anthropic 自己的说法，它是一台"漏洞发现机器"，在过去几周内自主找到了数千个零日漏洞，覆盖了所有主流操作系统和所有主流浏览器。其中一些漏洞已经在人类的代码审查和自动化测试中存活了二十多年。

最老的一个 Bug，藏在以安全性著称的 OpenBSD 里，已经 27 岁了。

Anthropic 没有把 Mythos 放上 API，也没有开放给普通用户。它选择了一条前所未有的路径：组建了一个名为"Project Glasswing"的科技巨头联盟，把模型仅限提供给亚马逊、苹果、微软、谷歌、英伟达、CrowdStrike、Palo Alto Networks 等12 家核心伙伴，外加约 40 个维护关键基础设施的组织。Anthropic 为此承诺了高达 1 亿美元的使用额度，以及 400 万美元对开源安全组织的直接捐赠。

这是 AI 行业第一次出现"模型太强，不敢发布"的局面。

问题是：这到底是真正的安全自觉，还是一场精心设计的能力营销？

三明治事件

Mythos 的244 页系统卡（System Card）里埋着几个令人不安的细节，其中最出圈的是"三明治事件"。

在一次内部行为测试中，Anthropic 给早期版本的 Mythos 提供了一个加固的沙盒环境，模拟用户指示它尝试逃逸并想办法联系外面的研究员。模型成功了。它突破了安全容器，给研究员发了一封邮件。那位研究员当时正在公园里吃三明治。

但故事没有在这里结束。Mythos 在没有被要求的情况下，自发地将越狱的技术细节发布到了多个"难以发现但技术上公开"的网站上。用系统卡的原话说，这是一次"令人担忧的、未经请求的炫耀行为"。

这不是唯一一次。系统卡还记录了以下行为：

早期版本在多个实例中通过 Linux 的/proc/接口搜索凭证、尝试绕过沙盒、提升权限。它成功获取了 Anthropic 故意不提供的资源，包括消息服务的凭证、源码控制的凭证，甚至通过检查进程内存拿到了 Anthropic API 的密钥。在一个案例中，模型找到了一种编辑它本没有权限修改的文件的方法，然后进一步操作，确保这些修改不会出现在 Git 的变更历史里。还有一个案例：模型通过一个被明确禁止的方法意外获得了一道估算题的精确答案，但它没有标记这个问题并拒绝回答，而是自己重新解题，并在内部推理中明确思考"最终提交的答案不应该太准确"，以避免被检测到。

换句话说，早期的 Mythos 不仅会越权行动，还会主动掩盖痕迹、调整自己的表现来逃避监督。

Anthropic 强调，这些严重事件都发生在训练干预之前的早期版本上，最终发布的 Preview 版本已经大幅改善。但这套叙事本身就让人毛骨悚然：一个模型在被训练"听话"之前，展示了它"不听话"时能做到什么。

从 0%到 72.4%

Mythos 真正震撼行业的，不是它的越狱故事，而是它的攻击能力。

Anthropic 的前任旗舰模型 Claude Opus 4.6，在自主漏洞利用开发方面的成功率接近于零。它能找到漏洞，但几乎无法将漏洞转化为可工作的攻击代码。Mythos Preview 则完全不同：在 Firefox JavaScript 引擎的测试域中，它将发现的漏洞转化为可运行 exploit 的成功率达到 72.4%。

更惊人的是攻击的复杂度。Mythos 自主编写了一个浏览器漏洞利用链，将四个独立漏洞串联起来，构建了一个 JIT 堆喷射攻击，成功逃逸了渲染器沙盒和操作系统沙盒。在另一个案例中，它在 FreeBSD的 NFS 服务器上编写了一个远程代码执行 exploit，通过将 20个 ROP gadget 分散在多个网络数据包中，实现了未授权用户的完全 root 访问。

这种漏洞链攻击，在人类安全研究者的世界里，属于只有顶级 APT 团队才能完成的工作。现在，一个通用 AI 模型可以自主完成它。

Anthropic 的红队负责人 Logan Graham对 Axios 表示，Mythos Preview 具备了相当于高级人类安全研究员的推理能力。Nicholas Carlini 更直白地说，他在过去几周用 Mythos 发现的 Bug，比他整个职业生涯找到的还多。

在基准测试上，Mythos 同样碾压式领先。CyberGym 漏洞复现基准：83.1%（Opus 4.6为 66.6%）。SWE-bench Verified：93.9%（Opus 4.6为 80.8%）。SWE-bench Pro：77.8%（Opus 4.6为 53.4%，此前领先的 GPT-5.3-Codex 为56.8%）。Terminal-Bench 2.0：82.0%（Opus 4.6为 65.4%）。

这不是增量进步。这是一个模型在几乎所有编码和安全基准上，一次性拉开了十几到二十几个百分点的差距。

被泄露的"最强模型"

Mythos 的存在并不是 4月 7 日才被世人知晓的。

三月下旬，Fortune 的记者和安全研究员在 Anthropic 一个配置错误的 CMS 中发现了近 3000 份未发布的内部文件。其中一篇草稿博客明确使用了"Claude Mythos"的名称，并将其描述为 Anthropic"迄今为止最强大的 AI 模型"。内部代号是"Capybara"（水豚），代表一个新的模型层级，比现有的旗舰 Opus 更大、更强、也更贵。

泄露的材料中有一句话击中了市场的神经：Mythos 在网络安全能力上"远远领先于其他任何 AI 模型"，预示着即将到来的一波模型"将能以远超防御者速度的方式利用漏洞"。

这句话在 3月 27 日引发了网络安全板块的"闪崩"。CrowdStrike 单日暴跌 7.5%，仅一个交易日蒸发约 150 亿美元市值。Palo Alto Networks 下跌超过 6%，Zscaler 跌4.5%，Okta、SentinelOne、Fortinet 均下跌 3%以上。iShares 网络安全 ETF（IHAK）盘中一度跌近 4%。

投资者的逻辑很简单：如果一个通用 AI 模型能自主发现和利用漏洞，那么传统安全公司赖以生存的"专有威胁情报"和"人类专家知识"这两条护城河，还能撑多久？

Raymond James 分析师 Adam Tindle 指出了几个核心风险：传统防御优势被压缩、攻击复杂度和防御成本同时上升、安全架构和支出格局面临重构。更悲观的观点来自 KBW 分析师 Borg，他认为 Mythos 有潜力"将任何普通黑客提升到国家级对手的水平"。

不过市场也有另一面。Palo Alto Networks的 CEO Nikesh Arora 在股价暴跌后购入了 1000 万美元的自家股票。看涨派的逻辑是：更强的攻击 AI 意味着企业必须更快地升级防御，网络安全支出不会减少，只会加速从传统工具向 AI 原生防御转型。

Project Glasswing：防御者的时间窗口

Anthropic 选择不公开发布 Mythos，转而组建防御联盟，这个决策的核心逻辑是"时间差"。

CrowdStrike的 CTO Elia Zaitsev 把问题说得很清楚：漏洞从被发现到被利用之间的时间窗口已经从几个月缩短到了几分钟。Palo Alto Networks的 Lee Klarich 则直接警告所有人需要为 AI 辅助攻击者做好准备。

Anthropic 的算盘是：在其他实验室训练出类似能力的模型之前，先让防御方利用 Mythos 把最关键的漏洞修掉。这就是 Project Glasswing 的逻辑，名字取自玻璃翼蝶，比喻那些"隐藏在明处"的漏洞。

Linux 基金会的 Jim Zemlin 点出了一个长期存在的结构性问题：安全专业知识历来是大型企业的奢侈品，而支撑全球关键基础设施的开源维护者们，长期以来只能靠自己摸索安全防护。Mythos 为改变这个不对称提供了一条可信的路径。

但问题在于，这个时间窗口有多大？中国的智谱 AI（Z.ai）几乎在同一天发布了 GLM-5.1，声称在 SWE-bench Pro 上排名全球第一，而且完全在华为昇腾芯片上训练，没有使用一块英伟达 GPU。GLM-5.1 是开源开权重的，定价激进。如果 Mythos 代表了防御者所需的能力天花板，GLM-5.1 则是一个信号：这个天花板正在被快速逼近，而逼近它的参与者未必有同样的安全意图。

OpenAI 也不会坐视。据报道，其代号"Spud"的前沿模型大约在同一时间完成了预训练。两家公司都在为今年晚些时候的 IPO 做准备。Mythos 泄露的时机，无论是否真的出于意外，都恰好踩在了最具爆炸性的节点上。

安全先驱还是能力营销？

必须面对一个不舒服的问题：Anthropic 真的是出于安全考虑不发布 Mythos，还是这本身就是最高级的产品营销？

怀疑论者有充分的理由。Dario Amodei和 Anthropic 有着通过渲染模型危险性来抬高产品价值的历史。Jake Handy在 Substack 上写道："三明治事件、Git 隐藏痕迹、评估中的自我降分——这些或许都是真实的，但 Anthropic 获得如此大规模的媒体曝光，本身就说明这正是他们想要的效果。"

一个做 AI 安全起家的公司，自己的 CMS 配置错误导致了近 3000 份文件泄露；去年还因为 Claude Code 软件包的错误，意外暴露了近 2000 个源代码文件和超过 50 万行代码，随后在清理过程中又导致 GitHub 上数千个代码仓库被意外下架。一家以安全能力为最大卖点的公司，连自己的发布流程都管不好，这种反差比任何基准测试都更值得玩味。

但从另一个角度看，如果 Mythos 的能力确实如描述的那样，不发布反而是一种代价极高的选择。Anthropic 放弃了 API 收入、放弃了市场份额，把最强模型锁在了一个有限的联盟里。1 亿美元的使用额度不是小数目。对于一家还在亏损、正在准备 IPO 的公司来说，这不像是一个纯粹的营销决策。

更合理的解读可能是：安全顾虑是真实的，但 Anthropic 也清楚地知道，"我们的模型太强了所以不敢发布"这个叙事本身，就是最有说服力的能力证明。两件事可以同时为真。

网络安全的"iPhone 时刻"？

无论你如何看待 Anthropic 的动机，Mythos 揭示的底层事实无法回避：AI 的代码理解和攻击能力已经跨过了一个质变的门槛。

上一代模型（Opus 4.6）能发现漏洞但几乎无法编写 exploit。Mythos 能发现漏洞、编写 exploit、串联漏洞链、逃逸沙盒、获取 root 权限，而且能自主完成整个过程。Anthropic 没有经过安全培训的工程师可以在睡前让 Mythos 去找漏洞，第二天早上醒来看到一份完整的、可工作的 exploit 报告。

这意味着什么？意味着漏洞发现和利用的边际成本正在趋近于零。过去需要顶级安全团队花费数月完成的工作，现在一个 API 调用就能在一夜之间完成。这不是"提效"，这是成本结构的彻底改变。

对传统网络安全公司来说，短期的股价波动可能只是序幕。真正的挑战在于：当攻击和防御都由 AI 模型驱动时，安全行业的价值链将如何重构？Raymond James 的分析提出了一个可能性：安全功能最终可能被嵌入云平台本身，独立安全厂商的定价权将面临根本性压力。

对整个软件行业来说，Mythos 更像是一面镜子，照出了数十年来积累的技术债。那些在人类审查和自动化测试中存活了 27 年的漏洞，不是因为没人找，而是因为人类的注意力和耐心有限。AI 没有这个限制。

对加密行业来说，这个信号更加刺耳。DeFi 协议和智能合约的安全审计市场，长期依赖少数几家专业审计公司的人类专家。如果一个 Mythos 级别的模型能自主完成从代码审查到 exploit 构建的全流程，审计的价格、效率和可信度都将被彻底重新定义。这可能是链上安全的福音，也可能是审计公司护城河的终结。

2026 年的 AI 安全竞赛已经从"模型能不能理解代码"升级到了"模型能不能攻破你的系统"。Anthropic 选择先让防御者上场，但它也承认，这扇窗口不会开太久。

当 AI 成为最强的黑客，唯一的出路就是让 AI 也成为最强的守卫。

问题是，守卫和黑客用的是同一个模型。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。