Claude Mythos 性能超越所有基准测试,人工智能进化呈超指数级增长

Claude
Claude Mythos Outpaces Every Benchmark as AI Evolution Goes Super-Exponential
近期针对 Claude Mythos 模型的评估显示,其性能已突破 METR 基准测试的上限,表明人工智能正向通用人工智能(AGI)迈进,其演进速度甚至超过了此前关于 2027 年技术奇点最激进的预测。

指标的终结

模型评估与威胁研究组织(METR,前身为 ARC Evals)长期以来一直是测试 AI 能力前沿的黄金标准。他们的测试套件旨在将模型推向绝对的极限,尤其是在长期、复杂的任务完成领域。METR 使用一种被称为“50% 成功率时间线”的指标。该指标衡量模型独立且成功完成一项需要熟练人类 X 小时才能完成的任务的能力。直到最近,即使是最先进的前沿模型,在维持这一能力的一致性方面,也很难超过几个小时的门槛。

当 Claude Mythos 接受这些测试时,其结果不仅是改进,更是一场系统性的冲击。Mythos 在需要 16 小时人类劳动的复杂工程任务上实现了 50% 的成功率。这包括阅读海量代码库、理解架构细微差别、制定多步骤执行计划、编写实现代码,以及在没有任何人工干预的情况下进行调试。当研究人员尝试让该模型完成需要 32 或 64 小时的任务时,他们撞上了“南墙”。这并非因为 AI 失败了,而是因为测试库本身已经耗尽。METR 承认,他们已没有足够的超高难度样本来进行准确的定量比较。我们已经到了一个创造者无法衡量被创造物深度的地步。

这种“扭曲地带”是一种 AI 能力超过测量工具量程的现象。这在技术上等同于试图用标准的学生尺去测量摩天大楼的高度。我们知道建筑物很高,但我们无法知道它到底在哪里结束。METR 的研究人员指出,超过 16 小时的阈值后,数据测量变得“不稳定且毫无意义”。这表明当前一代的 AI 正在以一种人类设计的评估框架从未准备好容纳的效率和自主性水平运行。

超指数增长的几何学

要理解为什么这在硅谷内外引起恐慌,必须审视进步曲线的几何形状。几十年来,我们一直在谈论摩尔定律和指数增长。但从之前的模型到 Mythos 的跨越完全是另一回事:超指数增长。在标准指数曲线中,增长率与当前值成正比。而在超指数增长中,增长率本身也在加速。自主任务完成的时间线完美地说明了这一点。

曾任 OpenAI 超级对齐(Super Alignment)团队研究员的 Leopold Aschenbrenner 曾预测,通用人工智能(AGI)奇点将在 2027 年到来。他的预测被许多人认为过于激进,甚至是夸大其词。然而,来自 Mythos 评估的最新数据点实际上略高于 Aschenbrenner 预测的趋势线。如果目前的轨迹保持不变,我们不仅是在按部就班地迈向 2027 年,甚至可能提前实现目标。工业界对 AI 发展速度的估计一直相当保守,未能计入 AI 辅助 AI 开发所带来的复合效应。

经济替代与 16 小时阈值

16 小时的自主窗口不仅仅是一个技术里程碑,它是一个经济临界点。在工业自动化和机械工程领域,16 小时代表了整整两个轮班的不间断工作。如果一个 AI 能够在该时长内自主运行,它就可以作为项目负责人,而不仅仅是一个助手。它可以在工作日结束时接收高层目标,并在第二天早上准备好一个经过全面测试的子项目。这种自主水平消除了阻碍 AI 在复杂供应链和工程工作流中整合的“人在回路”瓶颈。

财务数据反映了这一转变。根据 SemiAnalysis 的最新报告,AI 行业的年化收入已远远超过此前对 2026 年第二季度预测的 260 亿美元。企业不再满足于“试点”实验,而是将自主代理整合到其核心基础设施中。这在网络安全等领域尤为明显,AI 的处理速度使传统的防御团队面临降维打击。当 AI 能够将一年的渗透测试压缩在三周内完成时,整个防御安全的概念就必须被重写。

这些数字背后的实用主义正是这一时刻与以往“AI 寒冬”之前的“AI 热潮”的区别所在。我们看到了模型处理长期任务的能力与其市场价值之间存在直接相关性。AI 在没有人工监督的情况下工作的时间越长,它对全球经济的价值就越高。Mythos 是第一个有效跨越了门槛的模型:它从一个需要不断提示的工具,变成了一个只需给定目标即可运行的系统。

安全悖论:进攻与防御

随着 AI 获得长时间自主工作的能力,数字安全领域的权力平衡正在发生变化。Palo Alto Networks 最近发布了一份报告,详细介绍了他们在不受限制地访问 Mythos 和传闻中的 GPT-5.5-Cyber 等前沿模型后的体验。他们的发现描述了安全领域的一个“原子时刻”。这些模型以完全自主的方式进行漏洞分析的能力,意味着新软件漏洞的“利用时间”实际上已经坍塌。

然而,同样的自主性也可以应用于防御。悖论在于,只有具备这种级别能力的 AI,才有可能防御与之同等强度的 AI。这导致了一种场景:人类操作员不再是数字竞技场的主要战斗人员。相反,人类将转型为高层战略家,监督那些执行保护或探测网络工作的自主系统。这就是该技术的“外星文明”一面:它以人类肉眼无法实时观察到的速度和规模执行任务。

我们准备好迎接奇点了吗?

“奇点”一词往往带有神秘色彩或科幻意味,但在机械工程和工业系统的语境下,它指的是一个特定点:技术变革的速度快到超过了我们使用现有方法进行预测或控制的能力。如果 Claude Mythos 真的是 2027 年奇点的先驱,那么我们目前正处于过渡的最后阶段。METR 观察到的超指数增长表明,下一代模型很可能能够处理跨度长达数周甚至数月的任务。

当一个 AI 能够自主管理一个项目长达一个月时,它就不再仅仅是一个软件工具。它是一位虚拟员工、一名研究员,也是一名工程师。这对全球劳动力和企业结构的影响是深远的。我们正在迈向一个世界,主要的瓶颈不再是人类的智慧或劳动力,而是为这些自主实体提供动力的能源和算力。“外星飞船”已经着陆,它的阴影覆盖了人类工业的整片天空。我们可以选择分析数据、调整基础设施并为 16 小时的自主现实做好准备,或者继续依赖过时的尺子去测量一座已经触及云端的建筑。

来自 Mythos 评估的数据给那些等待 AI“放慢速度”的人敲响了警钟。曲线并没有趋平,而是在向后卷曲。随着我们接近 2027 年,重点将从我们如何使用 AI 转向我们如何与一种日益能够自我管理的科技并存。天花板已经被击碎,这是第一次,我们的头顶只有广阔的天空。

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q Claude Mythos 在 METR 基准测试中的表现为何意义重大?
A Claude Mythos 在架构规划和调试等通常需要 16 小时人工劳动才能完成的复杂工程任务中,取得了 50% 的成功率。这一表现实际上耗尽了 METR 组织的测试题库,形成了一个现有测量工具已无法量化模型深度极限的“扭曲区”。这标志着 AI 从简单的辅助工具转变为能够进行持续、独立任务执行的智能体。
Q Claude Mythos 的进展与 AGI 时间线预测有何关联?
A 该模型的轨迹显示出超指数级增长,即开发速度本身正在加速。Mythos 的表现略高于前 OpenAI 研究员 Leopold Aschenbrenner 预测的激进趋势线,后者曾预测 2027 年将出现 AGI 奇点。这种加速是由“AI 辅助 AI 开发”的复合效应所推动的,表明业界此前对实现通用人工智能(AGI)的保守估计可能已经过时。
Q AI 模型达到 16 小时自主作业窗口有哪些经济影响?
A 16 小时的自主作业窗口使 AI 能够作为项目负责人,在无需人工监督的情况下完成两个完整轮次的工作。这消除了复杂工程和供应链工作流中主要的人工干预瓶颈。因此,企业正从试点项目转向核心基础设施集成,这推动了 AI 行业营收的激增,使其已经超过了原定于 2026 年年中预测的 260 亿美元大关。
Q Claude Mythos 类模型出现所描述的安全悖论是什么?
A 安全悖论是指随着自主模型进行高速漏洞分析,软件漏洞的利用时间被大幅压缩。由于这些模型能将数月的渗透测试缩短至数周,它们为攻击性行动提供了巨大优势。然而,防御此类能力需要同等甚至更强大的 AI,这有效地将人类操作员从数字对抗的一线中排除,使自主智能体成为主要的防御力量。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!