算法杀伤链:评估五角大楼对民用大语言模型的集成

Grok
The Algorithmic Kill Chain: Evaluating the Pentagon’s Integration of Civilian LLMs
继关于在军事行动中使用埃隆·马斯克旗下 Grok AI 的争议性证词之后,本文分析了人工智能驱动的动力打击所面临的技术障碍与机械现实。

生成式人工智能与动能战争的交集,已从推想小说领域走到了国会听证会的前台。近期,军方官员关于将 xAI 的 Grok(由 Elon Musk 的人工智能公司开发的一种大型语言模型,LLM)整合进美国国防部 (DoD) 指挥与控制架构的证词,在航空航天和国防领域引发了巨大震动。尽管有关 AI 聊天机器人能自主指挥大规模导弹袭击的说法仍受到技术界的强烈质疑,但其背后的现实揭示了五角大楼正日益急切地试图弥合民用硅基技术与军事硬件之间的鸿沟。

作为一名专注于机器人与工业应用衔接的机械工程师,LLM 管理动能“杀伤链”的前景呈现出一项迷人却又令人恐惧的系统架构挑战。要理解这些指控的严重性,人们必须透过头条新闻,审视数字指令转化为物理发射序列的实际机制。将类似 Grok 所采用的高级概率逻辑整合进严谨、确定性的导弹制导系统,代表了现代工程领域最复杂的难题之一。

自主指挥的架构

为了评估像 Grok 这样的 AI 指挥 2000 枚导弹的可行性,我们必须首先剖析现代杀伤链。用军事术语来说,这是从发现、定位、跟踪、瞄准、交战到评估威胁的全程流程。从历史上看,这是一个以人为中心的进程,并由专用人工智能(Narrow AI)提供支持——这些算法被设计用于单一特定任务,例如识别卫星图像中的坦克或计算弹射物的弹道轨迹。

生成式人工智能,特别是像 Grok 这样的 LLM,其运作原理从根本上不同。它们被设计用于在海量的人类语言和代码数据集中进行模式识别与合成。与“爱国者”导弹雷达系统中使用的“专用”AI 不同,LLM 属于“通用”AI。在近期证词所描述的规模下使用 Grok 进行打击,其技术难度在于接口。AI 若要发射导弹,必须拥有对综合战斗指挥系统 (IBCS) 或类似战术网络的授权访问权限。这需要一个安全的应用程序编程接口 (API),能够将自然语言输出转化为一系列加密的、硬件特定的指令。

从工程角度来看,风险不仅在于 AI 的意图,更在于其固有的概率本质。LLM 并不“知道”事实;它们只是预测序列中下一个可能的标记。在真空环境下,这会导致“幻觉”。而在战场上,瞄准逻辑中的幻觉可能导致灾难性的资源误配或对非战斗人员目标的攻击。如果五角大楼确实在测试 Grok,他们很可能是试图将其作为一种“推理引擎”,将海量的传感器数据合成出一幅连贯的战术画面,而不是直接让它扣动扳机。

Grok 变量:作战室里的“不过滤”逻辑

如果证词属实,选择 Grok 本身就意义重大。Elon Musk 将 Grok 推销为一种“不过滤”且“反觉醒”(anti-woke) 的 AI,旨在提供其他更具“净化”性质的模型可能规避的答案。在军事语境下,这种“不过滤”的特性往往被视为一种功能而非缺陷。军事决策需要冷静、严酷的计算,通常涉及权衡附带损害与战略目标。

然而,Grok 缺乏传统护栏的特性,也为国防部带来了一系列独特的技术风险。军用级软件需要高度的形式化验证——即一种数学证明,确保代码在所有可能条件下都能精确地按预期运行。大型语言模型在这一方面极为难以验证。它们是“黑盒”。当 LLM 判定某个特定的打击方案是实现目标的最有效方式时,它并不总能以满足武装冲突法 (LOAC) 法律和道德要求的方式来解释其推理过程。

此外,在前方部署环境中运行像 Grok 这样规模的模型,所需的物理基础设施是巨大的。我们谈论的是数千个 H100 GPU 或同等规格的定制芯片。虽然五角大楼一直在探索“边缘 AI”(在本地硬件上运行较小的模型),但 2000 枚导弹袭击的巨大规模表明其采用了集中式指挥结构,很可能利用了由 Musk 领导的另一项事业——Starlink 卫星星座所提供的高带宽、低延迟能力。这创造了一种传感器 (Starshield)、处理器 (Grok) 和通信器 (Starlink) 的垂直整合,这在战争史上是前所未有的。

Maven 项目与杀伤网的演进

所谓 Grok 的使用并非孤立存在。它是国防部旗舰 AI 计划——Maven 项目的逻辑延伸(尽管是极端延伸)。Maven 始于 2017 年,专注于利用计算机视觉自动化处理无人机影像。自那以后,该项目演变为一项更广泛的努力,旨在建立一个“杀伤网”——一个去中心化的、人工智能赋能的网络,让任何传感器都能与任何射手通信。

目前的推进计划,即“联合全域指挥与控制” (CJADC2),旨在连接从士兵的生物识别传感器到轨道卫星的一切设备。在此框架下,像 Grok 这样的 LLM 充当了“结缔组织”。它能够摄取数千页的现场报告、气象数据和信号情报 (SIGINT),为指挥官提供一份简化的选项列表。当 AI 从“决策支持”转向“辅助决策”时,争议便随之产生。

如果一名军官作证说发射了 2000 枚导弹,技术性问题在于:谁授权了最终序列?国防部的 3000.09 号指令要求在任何致命武力的使用中必须有“人在回路”(human-in-the-loop)。如果 Grok 被用于协调打击,它很可能自动化了后勤工作——加油计划、目标冲突管理和航线优化,而由人类指挥官提供最终授权。然而,在现代电子战的速度下,“人在回路”往往变成了“人在环上”(human-on-the-loop),人类只是在监督一个由于移动过快而无法进行手动干预的进程。

算法升级的地缘政治后果

除了硬件和代码,在针对伊朗等国家的动能打击中使用 AI,为国际关系引入了一个极其可怕的新变量:算法升级。当两个国家都使用 AI 驱动的指挥系统时,交战速度可能会加速到“闪电战”的程度。如果 AI 基于其实时 SIGINT 所识别的模式,感知到迫在眉睫的威胁,它可能会在人类外交官甚至还没来得及拿起电话之前就建议发动先发制人的打击。

所谓的 2000 枚导弹打击的规模也是一个工程后勤问题。发射如此多的资产需要对发射平台——舰船、飞机和陆基发射井——进行大规模协调。让 AI 在不出现任何机械或同步故障的情况下完成这一操作,将是工业自动化的一项壮举。这需要 Grok 同时与冷战时期的遗留系统和现代平台的尖端数字孪生系统进行对接。

五角大楼 AI 转向的批评者认为,我们对一种本质上仍处于实验阶段的技术寄予了过高的信任。如果 Grok 误读了一个信号——例如将民用雷达误认为军事雷达——由此产生的打击可能会引发全球冲突。这种 AI 的“不过滤”本质可能导致它得出结论:大规模、压倒性的打击是结束冲突的最有效方式,从而忽略了八十年来防止核战争的细微降级战术。

Grok 准备好上战场了吗?

尽管这些证词令人震惊,但机器人和航空航天界的许多人仍对“2000 枚导弹”这一具体数字持怀疑态度。如此庞大的弹药量暗示了一种通常在正式宣战前才具备的军工准备水平。此外,将 xAI 的软件整合进五角大楼的高安全性 SIPRNet 网络,需要经过通常耗时数年而非数月的审查。

然而,趋势是明确的。五角大楼正在抛弃定制的、反应迟缓的军事软件,转而采用硅谷的快速迭代周期。无论是 Grok、OpenAI 的 GPT-o1,还是 Palantir 的 AIP,美国军队的未来正在由 Python 和 C++ 编写。机械层面的现实是,我们正在构建一个战争速度仅受限于处理器时钟频率和卫星链路延迟的世界。

随着我们向前迈进,焦点必须从 AI 驱动打击的轰动效应,转向治理这些系统所需的严谨工程与道德框架。如果我们打算赋予算法指挥数千枚导弹的权力,我们必须确信发射背后的逻辑像机身钢材一样稳固。就目前而言,关于 Grok 的证词严厉地提醒我们,数字世界与物理世界最终已经——或许是不可逆转地——在战场上发生了碰撞。

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q Grok 与导弹系统中传统使用的窄人工智能有何不同?
A 传统的军事人工智能被归类为窄人工智能,旨在执行特定的确定性任务,如雷达识别或弹道轨迹计算。相比之下,Grok 是一种广泛的大型语言模型,利用概率逻辑来综合海量数据集。虽然窄人工智能遵循严格的规则,但 Grok 作为推理引擎通过预测信息序列来运作,使其能够将自然语言报告和传感器数据处理为更广泛的战场战术概览。
Q 在军事行动中使用 Grok 需要什么样的基础设施支持?
A 部署 Grok 这种规模的模型需要庞大的物理基础设施,包括数千个像 NVIDIA H100 这样的高性能 GPU。由于这些硬件需求,五角大楼可能依赖于集中的指挥结构,而不是本地的边缘计算。这种设置由高带宽、低延迟的通信网络(如 Starlink 卫星星座)提供支持,从而建立了一个垂直集成的系统,将轨道传感器直接连接到人工智能处理中心和战术射击单元。
Q 将大语言模型(LLM)集成到国防软件中时,形式化验证为何是一项挑战?
A 军用级软件通常需要形式化验证,这是一种确保代码在任何可能条件下都能完全按预期运行的数学证明。像 Grok 这样的大语言模型被认为是黑箱,使得这种级别的验证几乎不可能实现。它们的概率性质意味着它们可能会产生不可预测的输出或幻觉。这种缺乏透明度的特性,给满足武装冲突法在动态作战中所需的法律和道德标准带来了重大障碍。
Q 大语言模型在五角大楼的“联合全域指挥与控制”(CJADC2)中扮演什么角色?
A 在 CJADC2 框架内,像 Grok 这样的大语言模型充当了被称为“杀伤网”(Kill Web)的去中心化网络的连接纽带。它旨在摄取和分析海量的信号情报、气象数据和战场报告。通过综合这些信息,人工智能为指挥官提供了一份简化的战术选项列表。该技术的目的在于超越简单的数据处理,实现主动的决策支持,从而连接所有军事领域中的每一个传感器和射击单元。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!