Anthropic 发布 Claude Opus 4.7:性能差距缩小,Mythos 仍受限制

Claude
Anthropic Claude Opus 4.7 Bridges the Performance Gap While Mythos Stays Sidelined
Anthropic 发布了 Claude Opus 4.7,该模型在编程与视觉基准测试中表现卓越,但官方同时承认其性能仍次于公司内部受限的 Mythos 模型。

Anthropic 已正式部署 Claude Opus 4.7,这是其旗舰大语言模型(LLM)的一次重要技术迭代。对于这家总部位于旧金山的 AI 公司而言,此次发布正值关键时刻,因为在 OpenAI 和 Google 快速迭代产品的激烈市场竞争中,该公司正寻求重夺技术领先地位。虽然 Opus 4.7 在复杂软件工程、多模态视觉和自主推理方面展示了可量化的提升,但此次发布也罕见地承认了内部层级差异:该模型在设计上仍逊色于 Anthropic 尚未发布的“Mythos”系统。

对于工业用户和软件工程师来说,Opus 4.7 不仅仅是一个增量补丁。它是对先前版本性能被认为出现退化这一日益增长的技术反馈的直接回应。通过引入模型分配内部推理资源的新粒度——特别是通过“超高”(extra high)努力级别和任务预算——Anthropic 正在将重心从原始的随机输出转向可控、可验证的工程实用性。

工程界对“退化论”的回应

在本次发布前的几周里,AI 社区围绕 Claude Opus 4.6 的性能表现展开了激烈的争论。包括 AMD 一位高级总监在内的多位知名资深用户公开批评该模型,认为其在处理复杂工程任务时变得不可靠。这些观察引发了“削弱”(nerfing)一词的流传,即外界推测 Anthropic 为了控制运营成本或将硬件转向开发 Mythos 等更先进系统,而限制了该模型的算力资源。

Anthropic 领导层明确否认了这些说法,断言没有算力资源从 Opus 4.6 上被挪用。然而,Opus 4.7 的发布通过强调可靠性和稳定性,回应了用户心底的挫败感。该新模型经过专门调优,能够处理“最困难的编码工作”——即那些以往需要人工持续监督的高熵任务。对于机械工程师或软件架构师而言,大语言模型的价值不在于编写简单脚本的能力,而在于其在处理遗留代码库并在数千行指令中保持逻辑一致性的能力。Opus 4.7 旨在恢复这种信任。

对比 GPT-5.4 与 Gemini 3.1 Pro 的性能基准

性能差异在需要“视觉转代码”(vision-to-code)转换的任务中表现尤为明显。Anthropic 指出,该模型的视觉能力已得到强化,使其能够以更高的保真度解读高分辨率图像。在实际工业应用中,这意味着模型可以更好地分析复杂的技术图纸、识别电路元件或通过照片解读硬件接口的状态,进而生成与该硬件交互所需的文档或代码。

任务预算与努力级别的机制

Opus 4.7 在技术上最显著的特性或许是引入了“任务预算”(task budgets)和“xhigh”(超高)努力级别。这标志着对传统“一刀切”推理模式的偏离。在工程语境下,延迟(速度)与精度(推理)之间的权衡是一个基本的优化问题。通过允许开发者设置任务预算,Anthropic 提供了一种机制,可以在模型得出答案前控制其消耗的“推理令牌”(reasoning tokens)数量。

“xhigh”努力设置位于现有的“高”(high)和“最大”(max)级别之间。这为代理工作流(agentic workflows)——即 AI 作为自主代理执行多步骤任务的系统——提供了一个中间地带。在复杂的供应链模拟或自动调试中,微调模型推理强度的能力有助于更好地管理成本并提供更可预测的输出周期。它防止了模型在简单问题上“过度思考”,同时确保其拥有足够的计算空间来解决非平凡的逻辑难题。

为何 Anthropic 保留 Mythos

尽管 4.7 版本有所提升,但 Mythos 的阴影依然笼罩着此次发布。Anthropic 采取了一种不同寻常的做法,展示的基准测试结果证明 Opus 4.7 仍然落后于一个公众尚无法使用的模型。Mythos 代表了 Anthropic 的下一代前沿系统,目前仅限于特定的网络安全公司和技术合作伙伴使用。

决定推迟发布 Mythos 的根源在于 Anthropic 对“AI 安全”的关注。据该公司称,Mythos 具备的能力若被滥用,可能引发网络安全攻击或被用于制造复杂的数字威胁。通过将 Opus 4.7 作为新防御措施的实测平台,Anthropic 实际上是将当前版本作为遥测来源,以完善更广泛发布 Mythos 类模型所需的安全协议。

从务实的角度来看,这表明 AI 进步的瓶颈不再仅仅是算力或数据,而是部署所带来的社会和安全风险。对于工业部门而言,这造成了双轨并行的格局:以 Opus 4.7 为代表的现役“工薪阶层”模型针对生产力和专业实用性进行了优化,而真正的“前沿”模型则被封存在实验室中,直到其引发系统性破坏的风险被降低为止。

自检模型的工业实用性

Opus 4.7 更新的另一个重点是其改进的自我检查能力。在机械工程中,验证与确认(V&V)是安全关键系统的基石。如果 AI 能够在输出解决方案之前识别出自身的逻辑错误,那么“幻觉”——即统计学上看似合理但事实错误的断言——的发生率将显著下降。

这种自我纠错机制对于代码生成至关重要。当 AI 编写控制机械臂的脚本时,坐标变换中的任何语法错误或逻辑漏洞都可能导致硬件损坏。Anthropic 声称用户现在可以“充满信心”地交付最困难的编码工作,这表明 Opus 4.7 的内部验证层已达到模仿人类同行评审流程的成熟度。这种从创意助手向技术协作者的转变,正是 2024 年及以后大语言模型市场的主要发展轨迹。

Opus 4.7 能否重回巅峰?

随着行业向更具代理性和自主性的系统迈进,Opus 4.7 中引入的任务预算和细粒度努力级别可能比纯粹的性能得分更具影响力。它将大语言模型视为大型工程堆栈中的一个组件,而非单纯的生成力,它需要的是控制力和可预测性。对于技术社区而言,4.7 的发布标志着“黑盒”模型时代的终结,取而代之的是一种将人工智能视为精确工业工具的更细腻的处理方式。

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q Claude Opus 4.7 在工程和编码任务方面引入了哪些具体的技术改进?
A Claude Opus 4.7 专注于提高复杂软件工程和高熵编码任务的可靠性。它引入了细粒度的任务预算和额外的“超高努力(extra high effort)”级别,允许用户控制推理令牌的使用量。这些更新有助于模型处理遗留代码库,并在数千行指令中保持逻辑一致性,从而解决了之前用户关于模型在技术和工业应用中性能下降的反馈。
Q Claude Opus 4.7 中的新任务预算和努力级别是如何运作的?
A Anthropic 实施了一套系统,开发人员可以设置特定的任务预算,以优化速度和精度之间的平衡。超高努力设置在自主代理工作流中提供了一个折中方案,既能防止模型在简单问题上过度思考,又能确保其有足够的计算空间来处理非平凡的逻辑难题。这一机制使得在复杂模拟或自动调试环境中,能够更好地进行成本管理并获得更可预测的输出。
Q 为什么 Anthropic 限制普通公众使用 Mythos 模型?
A 尽管内部基准测试显示 Mythos 系统的性能优于 Opus 4.7,但 Anthropic 将其发布范围仅限于少数网络安全公司和技术合作伙伴。这一限制主要是出于人工智能安全方面的考虑,因为该公司认为该模型具备可能被滥用于复杂数字威胁或网络攻击的能力。Anthropic 正在利用 Opus 4.7 来完善安全协议,然后再考虑更广泛地发布 Mythos 级别的系统。
Q Opus 4.7 为工业视觉和验证任务提供了哪些改进?
A 更新后的模型具备了更强化的多模态视觉能力,能够以更高的保真度解读高分辨率的技术图像。对于工业应用而言,这使得人工智能能够分析复杂的示意图或硬件组件并生成相应的文档。此外,改进后的自校正机制有助于模型在输出解决方案之前识别自身的逻辑错误,这对于编写控制工业机器人系统的代码等安全关键型任务至关重要。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!