Grok 与五角大楼的迷思：为何大语言模型无法掌控动力武器库

在社交媒体快节奏的生态系统中，算法幻觉与地缘政治现实之间的界限已变得危险地模糊。最近，X（前身为 Twitter）上涌现出大量报道和模因，称五角大楼利用 Elon Musk 旗下 xAI 开发的大型语言模型（LLM）Grok，协调了一场针对中东目标的 2000 枚火箭的大规模打击。尽管该说法获得了数百万次浏览，并引发了一轮热门话题，但对当前军事基础设施及 LLM 基础架构的技术分析揭示了一个清醒得多的现实。

作为一名专注于软件与工业硬件衔接的机械工程师，我能够理解人们对“人工智能主导战争”的着迷，但认为像 Grok 这样的大语言模型能够（或会被）用于触发动力学打击的特定说法，暴露了对美国国防部（DoD）如何运作其指挥与控制（C2）系统的根本性误解。从机器人技术和工业自动化的角度来看，聊天机器人与导弹阵地之间的距离不仅是权限问题，更是一道跨越不同工程理念的鸿沟。

非确定性故障的架构

要理解为何五角大楼不会使用 Grok 进行动力学打击，首先必须理解大语言模型的本质。Grok 与 GPT-4 或 Claude 等同类产品一样，属于非确定性系统。这意味着对于任何给定的输入，其输出都是基于概率权重生成的。虽然这非常适合创意写作、编程辅助或从 X 的实时信息流中合成新闻，但对于军事工程而言，这是大忌。

军事系统，尤其是涉及发射数千枚火箭的系统，要求绝对的确定性。在工业自动化中，我们构建的系统必须保证输入 A 始终导致结果 B。当你处理 2000 个动力学资产的后勤保障时，变量包括燃料状态、GPS 坐标、天气模式以及敌我识别（IFF）。大语言模型运行在词元（token）和高维向量的潜在空间中；它并不在物理意义上“知道”什么是火箭，它仅仅知道如何预测描述火箭的句子中的下一个单词。将一个非确定性的、“叛逆”的人工智能接入战术发射电路，对任何系统工程师来说都是一场噩梦。

五角大楼实际上是如何整合 AI 的

虽然有关 Grok 的传言是模因经济的产物，但五角大楼确实正通过“Maven 项目”（Project Maven）和“复制者”（Replicator）计划积极推进人工智能的整合。然而，在这些语境下所使用的人工智能与 Grok 毫无相似之处。国防部的重心在于计算机视觉（CV）和预测性维护，而非具备“幽默感”的对话式代理。

例如，Maven 项目利用机器学习扫描海量的无人机影像，以识别目标物体，如卡车、坦克或人员。这属于分类任务，而非生成式任务。其目标是缩短 OODA 循环（观察、导向、决策、行动）。即便在这些高科技场景中，最后的“决策”和“行动”阶段也严格保留给人类操作员，这一政策被称为“人在回路”（Human-in-the-Loop, HITL）要求。将商业 LLM 整合到该回路中会引入不可接受的延迟，并导致透明度缺失——即目前困扰 AI 研究的“黑箱”问题。

生成式 AI 能管理 2000 枚火箭的后勤吗？

从机械和后勤的角度来看，在单一 AI 指挥下同时发射 2000 枚火箭是一项巨大的工程。在工业机器人领域，协调仓库中哪怕 50 台自主单元，都需要复杂的网状网络和实时的空间冲突检测。将其扩展到战争剧场中 2000 个动力学资产，涉及多层加密通信和硬件握手，而这些与当前商业 AI 的 API 架构是不兼容的。

五角大楼的“联合全域指挥与控制”（JADC2）倡议旨在将各军种的传感器链接到一个统一的网络中。该网络使用专用的、加固的协议。Grok 托管在 xAI 的云基础设施上，可能运行在 NVIDIA H100 集群上。将面向公众的云端 AI 与 SIPRNet（保密互联网协议路由网络）连接，将构成历史上最严重的安全漏洞之一。任何理智的工程师都不会将战略资产暴露在基于 Web 的 LLM 固有的漏洞中，无论其训练数据的更新速度有多快。

AI 时代病毒式虚假信息的作用

为什么这个谣言能获得如此多的关注？答案在于 X 的“探索”和趋势功能目前的运作方式。Grok 本身经常根据用户帖子总结热门话题。如果大量用户开始拿五角大楼使用 Grok 开玩笑，Grok 自己的新闻综合引擎可能会将这一趋势当成新闻事件进行报道，从而制造出虚假信息的反馈循环。这在平台层面是一种典型的“幻觉”。

在机器人和自动化领域，我们称之为失控的反馈循环。对公众而言，这创造了一种对 AI 能力的扭曲视角。它将 AI 描绘成一种能够越过数字边界进入物理世界的神一般的实体。实际上，人工智能的工业应用要琐碎得多，且专注于效率。我们利用 AI 来优化机械臂的扭矩，或预测传送带电机何时可能故障，而不是为了绕过五角大楼的指挥链。

军用级 AI 的经济现实

此外，我们必须审视其经济可行性。五角大楼在 Palantir、Anduril 和 Lockheed Martin 等国防承包商定制的软件上花费了数十亿美元。这些公司提供经过审计、物理隔离（air-gapped）且专为高风险可靠性而设计的“防务级”AI。xAI 是一家面向消费者和企业市场的商业企业。从采购角度来看，将未经核实的商业聊天机器人用于动力学作战，其法律和技术障碍可能需要数年甚至数十年才能扫清。

支持 2000 枚火箭发射所需的硬件——发射器、运输车辆、制导系统——代表了数十亿美元的实物资本。控制这些资本的软件必须与它所驱动的钢铁一样坚固。Grok 是软件工程的奇迹，但它是为互动和信息检索优化的，而非为了适应工业规模的毁灭性破坏。模因或许很有趣，但它们分散了人们对自主系统和算法战领域正在进行的真正、严肃工作的关注。

总之，虽然有关 Grok 被用于导弹打击的趋势提供了一个引人入胜的社交媒体叙事，但它经不起任何技术和逻辑的推敲。五角大楼迈向人工智能的步伐是真实的，但它是建立在专业化、确定性及高度监管的系统基础之上的。随着我们深入机器人时代，区分大语言模型的对话能力与工业及军事硬件的机械现实至关重要。前者是沟通的工具，后者是行动的工具。目前，这两个世界依然保持着安全的距离。

Grok 与五角大楼的迷思：为何大语言模型无法掌控动力武器库

非确定性故障的架构

五角大楼实际上是如何整合 AI 的

生成式 AI 能管理 2000 枚火箭的后勤吗？

AI 时代病毒式虚假信息的作用

军用级 AI 的经济现实

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments