AI 进入智能体时代：GPT-5.5 与 Claude Mythos 重塑自动化

尽管 OpenAI 将重点放在扩展其旗舰模型的通用推理能力与效率上，Anthropic 却转向了一个高度专业化、风险极高的应用领域：网络安全。这两款产品的同步发布已在国际市场上产生涟漪。在英国，政府官员和金融机构正着手将 Anthropic 的 Mythos 集成到国家银行基础设施中，而欧盟监管机构则保持谨慎，实际上暂时将该新模型阻挡在其边境之外。这种分歧凸显了自动化的效率追求与重塑网络防御规则的系统所带来的内在风险之间日益紧张的关系。

GPT-5.5 的技术演进

OpenAI 发布 GPT-5.5 代表了在平衡原始智能与运行延迟方面的一项重大工程成就。从历史上看，随着模型变得更加“智能”（通常通过参数密度和推理链的复杂性来衡量），它们的运行速度往往变慢，成本也随之增加。OpenAI 声称已经打破了这一趋势。GPT-5.5 在保持与其前身 GPT-5.4 相同的每令牌（per-token）延迟的同时，在跨上下文推理方面实现了公司所称的“跃升”。

从机械与系统工程的角度来看，GPT-5.5 最关键的更新在于其在 Codex 任务中增强的效率。OpenAI 报告称，该模型在完成与早期版本相同的编程和调试任务时，使用的令牌数量显著减少。对于企业用户而言，这意味着运营成本的降低和自动化软件开发吞吐量的提高。该模型现在具备了 OpenAI 所称的“代理式编码”（agentic coding）能力，即 AI 不仅仅是建议一段代码片段，而是能规划多文件架构、执行测试，并对输出进行迭代，直到实现功能目标。

这种“杂乱的、多部分任务”的处理能力是 GPT-5.5 的基石。模型不再需要人类来管理项目的每一个子步骤，而是可以被赋予一个高级目标——例如“分析此数据集、创建一个汇总电子表格并更新我们的内部数据库”——然后它将自主导航并调用必要的软件工具。从被动工具向数字工作流中积极参与者的转变，标志着工业自动化的一个转折点，瓶颈从 AI 生成内容的能力转移到了人类监督其自主行动的能力上。

Claude Mythos 与网络防御的新数学

在 OpenAI 扩展通用效能的同时，Anthropic 的 Claude Mythos（通常被称为 Mythos Preview）正将自己定位为网络安全领域的一种专业化武器。Anthropic 将 Mythos 描述为其在编码和代理任务方面能力最强的模型，但也强调这种优势是一把双刃剑。一个对软件理解深刻到足以修复漏洞的模型，从定义上讲，也是一个能够以空前速度发现并利用该漏洞的模型。

技术界指出，Mythos 似乎已经“像敲开鸡蛋一样破解了软件”。在受控测试中，该模型表现出了令人震惊的熟练度，能够识别出传统静态分析工具难以察觉的计算机代码深层缺陷。这一能力正通过“Project Glasswing”进行应用，这是一项专门的网络安全倡议，成员包括 CrowdStrike、Palo Alto Networks 和 Microsoft 等重量级企业。Glasswing 的目标是利用 Mythos 主动对企业软件进行“红队测试”，本质上是在恶意行为者发现之前先找到漏洞。

然而，Mythos 的强大威慑力导致了其受限的推广。与面向广泛用户群的 GPT-5.5 不同，Mythos 的访问权限受到严格控制。这造成了一个地缘政治摩擦点；尽管据报道美国国家安全局（NSA）正在使用 Mythos，尽管五角大楼内部对其供应链风险存在担忧，但欧盟已被排除在模型的初步发布之外。Anthropic 将欧盟拒之门外的决定表明，该模型的功能可能与《欧盟人工智能法案》（EU AI Act）严格的安全和透明度要求相抵触，或者该公司正在优先考虑与英国和美国等愿意将其快速集成到核心基础设施中的国家建立战略伙伴关系。

英国银行业的战略重心转向

在英国，政府并没有等待人工智能监管尘埃落定。有报告显示，英国正与 Anthropic 进行积极谈判，旨在为英国企业和银行提供 Mythos 的访问权限。此举被视为通过利用最先进的防御性人工智能，来确保伦敦作为全球金融中心的地位。如果成功，英国银行可能成为首批利用自主代理来监控交易、保护数据管道并实时自动修补漏洞的金融机构。

包括摩根大通（JPMorgan Chase）在内的金融领导者们已经在评估潜在风险。将像 Mythos 这样强大的系统集成到银行架构中，需要对传统的安全协议进行彻底的重新思考。当 AI 能够“操作软件并在工具之间切换，直到任务完成”时，它必须被授予某种程度的系统访问权限，而这种权限此前仅保留给高度受信任的人类工程师。英国财政部和监管机构内部的辩论焦点在于，这种自动化的效率收益是否超过了系统级故障或可能导致模型被滥用的“越狱”风险。

如此强大的系统能否被安全地控制？

安全性问题在 GPT-5.5 和 Claude Mythos 的头上都笼罩着巨大的阴影。著名安全专家布鲁斯·施奈尔（Bruce Schneier）指出，这些系统的强大能力对黑客攻击的未来有着可怕的影响。如果 AI 能够在几秒钟内发现人类团队需要数周才能发现的漏洞，那么网络防御的“数学逻辑”就变了。防御现在必须同样快速且自主。这引发了一场“人工智能军备竞赛”，防御自动化攻击的唯一方法就是雇佣自动化的防御者。

从工程角度来看，这些系统的安全性取决于其内部“世界模型”的稳健性以及对其代理行为所施加的约束。OpenAI 强调，GPT-5.5 旨在“在模糊中导航并继续前行”，这对可用性来说是一大进步，但对可预测性来说却是一场噩梦。如果代理式 AI 遇到了训练者未预料到的情况，其自主“规划”可能会导致在实际生产环境中产生意想不到的后果。未来十年的技术挑战将不再是让这些模型变得更聪明，而是使其自主行动变得可验证且可逆。

代理式模型的经济可行性

对于高管层和工业利益相关者而言，GPT-5.5 的发布以及 Mythos 有可能进入英国市场，代表了人工智能投资回报率（ROI）的转变。早期的大型语言模型（LLM）通常被视为实验性的生产力提升工具——在撰写电子邮件或生成营销文案方面非常有用。代理式模型通过瞄准核心运营成本改变了这种等式。当 AI 能够通过跨上下文推理并随着时间推移采取行动来处理“知识工作和早期科学研究”时，它开始取代整个层级的中间管理和技术协调职能。

GPT-5.5 在 Codex 任务中减少的令牌使用量就是这种经济转变的一个典型例子。在大规模工业环境中，如果 AI 可能在数千个存储库中管理数百万行代码，那么令牌效率提升 20% 或 30% 就可能带来数百万美元的计算成本节省。更重要的是，迭代速度——即 OpenAI 努力保持的“延迟”——决定了一家公司应对市场变化或技术故障的速度。在高频交易或自动化供应链管理的世界里，几毫秒的差距就是利润与亏损的区别。

最终，这两款模型的同步发布表明，我们已经告别了将 AI 视为新奇事物的时代。OpenAI 的 GPT-5.5 是数字企业的新主力，针对广泛、高效和自主的任务完成进行了优化。Anthropic 的 Mythos 则是高精度仪器，是专为互联网最关键、最危险的角落而设计的模型。随着英国采取行动拥抱这些工具，世界其他地区也将密切关注，看看代理式时代的承诺能否在不损害其试图现代化的那些机构的安全性的前提下得以实现。

AI 进入智能体时代：GPT-5.5 与 Claude Mythos 重塑企业自动化

GPT-5.5 的技术演进

Claude Mythos 与网络防御的新数学

英国银行业的战略重心转向

如此强大的系统能否被安全地控制？

代理式模型的经济可行性

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments