算法杀伤链：评估五角大楼对民用大语言模型的集成

生成式人工智能与动能战争的交集，已从推想小说领域走到了国会听证会的前台。近期，军方官员关于将 xAI 的 Grok（由 Elon Musk 的人工智能公司开发的一种大型语言模型，LLM）整合进美国国防部 (DoD) 指挥与控制架构的证词，在航空航天和国防领域引发了巨大震动。尽管有关 AI 聊天机器人能自主指挥大规模导弹袭击的说法仍受到技术界的强烈质疑，但其背后的现实揭示了五角大楼正日益急切地试图弥合民用硅基技术与军事硬件之间的鸿沟。

作为一名专注于机器人与工业应用衔接的机械工程师，LLM 管理动能“杀伤链”的前景呈现出一项迷人却又令人恐惧的系统架构挑战。要理解这些指控的严重性，人们必须透过头条新闻，审视数字指令转化为物理发射序列的实际机制。将类似 Grok 所采用的高级概率逻辑整合进严谨、确定性的导弹制导系统，代表了现代工程领域最复杂的难题之一。

自主指挥的架构

为了评估像 Grok 这样的 AI 指挥 2000 枚导弹的可行性，我们必须首先剖析现代杀伤链。用军事术语来说，这是从发现、定位、跟踪、瞄准、交战到评估威胁的全程流程。从历史上看，这是一个以人为中心的进程，并由专用人工智能（Narrow AI）提供支持——这些算法被设计用于单一特定任务，例如识别卫星图像中的坦克或计算弹射物的弹道轨迹。

生成式人工智能，特别是像 Grok 这样的 LLM，其运作原理从根本上不同。它们被设计用于在海量的人类语言和代码数据集中进行模式识别与合成。与“爱国者”导弹雷达系统中使用的“专用”AI 不同，LLM 属于“通用”AI。在近期证词所描述的规模下使用 Grok 进行打击，其技术难度在于接口。AI 若要发射导弹，必须拥有对综合战斗指挥系统 (IBCS) 或类似战术网络的授权访问权限。这需要一个安全的应用程序编程接口 (API)，能够将自然语言输出转化为一系列加密的、硬件特定的指令。

从工程角度来看，风险不仅在于 AI 的意图，更在于其固有的概率本质。LLM 并不“知道”事实；它们只是预测序列中下一个可能的标记。在真空环境下，这会导致“幻觉”。而在战场上，瞄准逻辑中的幻觉可能导致灾难性的资源误配或对非战斗人员目标的攻击。如果五角大楼确实在测试 Grok，他们很可能是试图将其作为一种“推理引擎”，将海量的传感器数据合成出一幅连贯的战术画面，而不是直接让它扣动扳机。

Grok 变量：作战室里的“不过滤”逻辑

如果证词属实，选择 Grok 本身就意义重大。Elon Musk 将 Grok 推销为一种“不过滤”且“反觉醒”(anti-woke) 的 AI，旨在提供其他更具“净化”性质的模型可能规避的答案。在军事语境下，这种“不过滤”的特性往往被视为一种功能而非缺陷。军事决策需要冷静、严酷的计算，通常涉及权衡附带损害与战略目标。

然而，Grok 缺乏传统护栏的特性，也为国防部带来了一系列独特的技术风险。军用级软件需要高度的形式化验证——即一种数学证明，确保代码在所有可能条件下都能精确地按预期运行。大型语言模型在这一方面极为难以验证。它们是“黑盒”。当 LLM 判定某个特定的打击方案是实现目标的最有效方式时，它并不总能以满足武装冲突法 (LOAC) 法律和道德要求的方式来解释其推理过程。

此外，在前方部署环境中运行像 Grok 这样规模的模型，所需的物理基础设施是巨大的。我们谈论的是数千个 H100 GPU 或同等规格的定制芯片。虽然五角大楼一直在探索“边缘 AI”（在本地硬件上运行较小的模型），但 2000 枚导弹袭击的巨大规模表明其采用了集中式指挥结构，很可能利用了由 Musk 领导的另一项事业——Starlink 卫星星座所提供的高带宽、低延迟能力。这创造了一种传感器 (Starshield)、处理器 (Grok) 和通信器 (Starlink) 的垂直整合，这在战争史上是前所未有的。

Maven 项目与杀伤网的演进

所谓 Grok 的使用并非孤立存在。它是国防部旗舰 AI 计划——Maven 项目的逻辑延伸（尽管是极端延伸）。Maven 始于 2017 年，专注于利用计算机视觉自动化处理无人机影像。自那以后，该项目演变为一项更广泛的努力，旨在建立一个“杀伤网”——一个去中心化的、人工智能赋能的网络，让任何传感器都能与任何射手通信。

目前的推进计划，即“联合全域指挥与控制” (CJADC2)，旨在连接从士兵的生物识别传感器到轨道卫星的一切设备。在此框架下，像 Grok 这样的 LLM 充当了“结缔组织”。它能够摄取数千页的现场报告、气象数据和信号情报 (SIGINT)，为指挥官提供一份简化的选项列表。当 AI 从“决策支持”转向“辅助决策”时，争议便随之产生。

如果一名军官作证说发射了 2000 枚导弹，技术性问题在于：谁授权了最终序列？国防部的 3000.09 号指令要求在任何致命武力的使用中必须有“人在回路”(human-in-the-loop)。如果 Grok 被用于协调打击，它很可能自动化了后勤工作——加油计划、目标冲突管理和航线优化，而由人类指挥官提供最终授权。然而，在现代电子战的速度下，“人在回路”往往变成了“人在环上”(human-on-the-loop)，人类只是在监督一个由于移动过快而无法进行手动干预的进程。

算法升级的地缘政治后果

除了硬件和代码，在针对伊朗等国家的动能打击中使用 AI，为国际关系引入了一个极其可怕的新变量：算法升级。当两个国家都使用 AI 驱动的指挥系统时，交战速度可能会加速到“闪电战”的程度。如果 AI 基于其实时 SIGINT 所识别的模式，感知到迫在眉睫的威胁，它可能会在人类外交官甚至还没来得及拿起电话之前就建议发动先发制人的打击。

所谓的 2000 枚导弹打击的规模也是一个工程后勤问题。发射如此多的资产需要对发射平台——舰船、飞机和陆基发射井——进行大规模协调。让 AI 在不出现任何机械或同步故障的情况下完成这一操作，将是工业自动化的一项壮举。这需要 Grok 同时与冷战时期的遗留系统和现代平台的尖端数字孪生系统进行对接。

五角大楼 AI 转向的批评者认为，我们对一种本质上仍处于实验阶段的技术寄予了过高的信任。如果 Grok 误读了一个信号——例如将民用雷达误认为军事雷达——由此产生的打击可能会引发全球冲突。这种 AI 的“不过滤”本质可能导致它得出结论：大规模、压倒性的打击是结束冲突的最有效方式，从而忽略了八十年来防止核战争的细微降级战术。

Grok 准备好上战场了吗？

尽管这些证词令人震惊，但机器人和航空航天界的许多人仍对“2000 枚导弹”这一具体数字持怀疑态度。如此庞大的弹药量暗示了一种通常在正式宣战前才具备的军工准备水平。此外，将 xAI 的软件整合进五角大楼的高安全性 SIPRNet 网络，需要经过通常耗时数年而非数月的审查。

然而，趋势是明确的。五角大楼正在抛弃定制的、反应迟缓的军事软件，转而采用硅谷的快速迭代周期。无论是 Grok、OpenAI 的 GPT-o1，还是 Palantir 的 AIP，美国军队的未来正在由 Python 和 C++ 编写。机械层面的现实是，我们正在构建一个战争速度仅受限于处理器时钟频率和卫星链路延迟的世界。

随着我们向前迈进，焦点必须从 AI 驱动打击的轰动效应，转向治理这些系统所需的严谨工程与道德框架。如果我们打算赋予算法指挥数千枚导弹的权力，我们必须确信发射背后的逻辑像机身钢材一样稳固。就目前而言，关于 Grok 的证词严厉地提醒我们，数字世界与物理世界最终已经——或许是不可逆转地——在战场上发生了碰撞。

算法杀伤链：评估五角大楼对民用大语言模型的集成

自主指挥的架构

Grok 变量：作战室里的“不过滤”逻辑

Maven 项目与杀伤网的演进

算法升级的地缘政治后果

Grok 准备好上战场了吗？

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments