Anthropic 高安全性 Mythos AI 遭供应链漏洞入侵

在生成式人工智能时代，安全性讨论往往围绕对齐（alignment）和安全护栏展开，但最近 Anthropic 公司受限的 Mythos 模型遭泄露事件，将焦点拉回了一个更传统、或许也更危险的工业漏洞：第三方供应链。有报道披露，一个私人在线组织成功获得了 Claude Mythos 的访问权限——该模型专为网络安全而设计，Anthropic 曾认定其危害性过大，不宜向公众发布。此次事件并非通过直接攻击 Anthropic 的核心基础设施引发，而是通过供应商环境发生，凸显了全球金融和科技领域在部署及保护高风险 AI 工具方面正面临日益严重的危机。

Mythos 架构：为何该模型被“隔离”

要了解此次泄露事件的严重性，首先必须了解 Mythos 在当前 AI 领域代表了什么。与公众所熟知的标准版 Claude 不同，Mythos 是专门为企业级安全及攻防网络安全模拟而设计的。从机械角度类比，如果标准的 LLM 是万能工具，那么 Mythos 就是精密设计的开锁工具组。Anthropic 将该模型归类为具有“史无前例的网络安全风险”，因为其识别软件漏洞和生成可利用代码的能力，远超消费级模型的安全阈值。

该公司决定让 Mythos 处于受控的隔离状态，是为了应对该模型可能以人类安全团队无法企及的规模实现零日漏洞（zero-day）挖掘。从设计初衷来看，Mythos 旨在协助大型金融机构和网络安全公司加固其系统。然而，正是其深厚的系统架构理解能力和模拟复杂攻击向量的能力，使其成为防御利器的同时，一旦落入受监管环境之外的攻击者手中，也将构成灾难性的隐患。

泄露向量分析

针对此次事件的初步调查指向第三方供应商环境是主要的故障点。这是一个经典的工业安全问题。Anthropic 内部执行着严格的协议，但为了向其精英客户名单提供服务，它必须将模型集成到外部承包商和基础设施提供商的工作流程中。据报道，一个未经授权组织的成员主要通过一个私人的 Discord 频道进行活动，他们利用这些中间环境之一的漏洞，建立了通往 Mythos 预览版的持久连接。

从工程角度来看，这反映了“边缘安全”的失败。当模型在第三方沙箱中进行托管或测试时，模型的安全性就不再仅仅是开发者的责任；其强度取决于供应商的访问管理系统。在本案中，据称该组织利用多种策略绕过了身份验证协议，最终获得了足够的访问权限，从而能够定期为自己的目的使用该模型。Anthropic 表示，目前没有证据表明其内部服务器遭到破坏，这表明此次泄露是交付流水线的故障，而非模型核心托管环境的失守。

Project Glasswing 与工业部署悖论

鉴于涉及模型测试阶段的实体地位显赫，此次泄露事件尤为敏感。该计划被称为 Project Glasswing，旨在向全球少数几家最具影响力的金融和科技机构部署 Mythos。名单包括 Amazon、Apple、JP Morgan Chase、Goldman Sachs、Citigroup、Bank of America 和 Morgan Stanley。这不仅是一次软件试验，更是由美国财政部推动的一项战略行动，旨在将 AI 用作全球金融网格的结构性防御机制。

据报道，4 月份，财政部长 Scott Bessent 会见了高级银行家，提倡使用 Mythos 来检测银行业的系统性漏洞。这里的悖论显而易见：工具的效用越关键，其访问节点就必须越分散。随着多家全球性银行及其各自 IT 基础设施的介入，Mythos 的“攻击面”呈指数级增长。每一家银行以及支持这些银行的每一个分包商，都代表着黑客潜在的入口。通过第三方承包商发生的泄露事件，冷酷地提醒人们：在工业自动化和 AI 领域，外围往往比中心更为脆弱。

未经授权的访问如何影响 AI 安全？

当像 Mythos 这样的模型在预定环境之外被访问时，主要担忧在于监控和遥测功能的缺失。在 Project Glasswing 项目中，Anthropic 理论上可以监控模型的使用方式，确保其仅用于防御任务。但在私人论坛上被未经授权的组织掌握后，这些监控手段就不复存在了。不再有“终止开关”或评审委员会来阻止该模型被用于开发恶意软件或识别公共基础设施中的漏洞。

此外，此次泄露使恶意行为者能够随意进行“对抗性测试”。他们可以试探模型以发现其内在弱点，这可能会催生出绕过其他公共模型安全过滤器的技术。这形成了一个反馈循环：一个高安全性模型的泄露成为了击败整个行业 AI 安全的训练场。对于像 Anthropic 这样以“宪法 AI”（Constitutional AI）理念立足的公司来说，此次泄露不仅仅是一次技术失败，更是对其安全部署基本哲学的挑战。

第三方风险的经济现实

从经济角度来看，Mythos 泄露事件凸显了 AI 安全成本的上升。随着 Anthropic、OpenAI 和 Google DeepMind 等公司开发出日益强大的工具，保护供应链的成本很可能会开始与训练模型本身的成本并驾齐驱。我们正在科技经济中看到一个新领域的出现：AI 托管与安全交付。如果第三方供应商无法被信任来处理这些模型，AI 开发商可能被迫建立自己的端到端专有硬件和网络架构来提供服务，从而显著提高了企业级 AI 的准入门槛。

目前，依赖第三方承包商进行数据标注、服务器维护和边缘部署是行业标准，因为这非常高效。然而，正如这一事件所展示的那样，效率往往是安全性的敌人。对于测试 Mythos 的金融巨头而言，此次泄露可能会导致它们对敏感技术的“预览版”兴趣降温。如果一个旨在保护银行的工具因为承包商的疏忽而反过来成为武器，那么 C 级高管们的风险收益评估将会发生变化。

AI 模型真的能被彻底管控吗？

Claude Mythos 的泄露引发了一个棘手的问题：所谓“危险到无法发布”的模型概念是否具有可持续性？软件行业的历史表明，代码一旦存在，最终就会泄露。无论是通过社会工程学、供应链漏洞还是内部举报人，信息的熵增都是一股强大的力量。如果一个模型确实对公众过于危险，那么将其与任何外部合作伙伴（即使是受信任的银行）共享的行为，都会引入完全暴露的非零风险。

随着 Anthropic 继续调查，整个行业都在关注该公司是否会撤回其分布式测试模型，转而采取更为集中化的“仅限本地部署”方案。目前，Mythos 事件也为机器人和自动化领域敲响了警钟。随着我们将复杂的 AI 集成到物理工业系统中，连接的安全性与引擎的逻辑同样至关重要。数据中心内一个被入侵的模型是一场灾难；而一个控制电网或生产线的被入侵模型则是毁天灭地的。复杂硬件与全球市场之间的桥梁，其坚固程度仅取决于供应链中最薄弱的一环。

Anthropic 高安全性 Mythos AI 遭供应链漏洞入侵

Mythos 架构：为何该模型被“隔离”

泄露向量分析

Project Glasswing 与工业部署悖论

未经授权的访问如何影响 AI 安全？

第三方风险的经济现实

AI 模型真的能被彻底管控吗？

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments