Grok 与五角大楼的迷思:为何大语言模型无法掌控动力武器库

Grok
Grok and the Pentagon Myth: Why LLMs Won’t Control Kinetic Arsenals
网络流传的谣言称 xAI 的 Grok 被用于一场大规模导弹袭击,但军事指挥与控制的客观技术现实揭示了人工智能在国防领域的真实地位。

在社交媒体快节奏的生态系统中,算法幻觉与地缘政治现实之间的界限已变得危险地模糊。最近,X(前身为 Twitter)上涌现出大量报道和模因,称五角大楼利用 Elon Musk 旗下 xAI 开发的大型语言模型(LLM)Grok,协调了一场针对中东目标的 2000 枚火箭的大规模打击。尽管该说法获得了数百万次浏览,并引发了一轮热门话题,但对当前军事基础设施及 LLM 基础架构的技术分析揭示了一个清醒得多的现实。

作为一名专注于软件与工业硬件衔接的机械工程师,我能够理解人们对“人工智能主导战争”的着迷,但认为像 Grok 这样的大语言模型能够(或会被)用于触发动力学打击的特定说法,暴露了对美国国防部(DoD)如何运作其指挥与控制(C2)系统的根本性误解。从机器人技术和工业自动化的角度来看,聊天机器人与导弹阵地之间的距离不仅是权限问题,更是一道跨越不同工程理念的鸿沟。

非确定性故障的架构

要理解为何五角大楼不会使用 Grok 进行动力学打击,首先必须理解大语言模型的本质。Grok 与 GPT-4 或 Claude 等同类产品一样,属于非确定性系统。这意味着对于任何给定的输入,其输出都是基于概率权重生成的。虽然这非常适合创意写作、编程辅助或从 X 的实时信息流中合成新闻,但对于军事工程而言,这是大忌。

军事系统,尤其是涉及发射数千枚火箭的系统,要求绝对的确定性。在工业自动化中,我们构建的系统必须保证输入 A 始终导致结果 B。当你处理 2000 个动力学资产的后勤保障时,变量包括燃料状态、GPS 坐标、天气模式以及敌我识别(IFF)。大语言模型运行在词元(token)和高维向量的潜在空间中;它并不在物理意义上“知道”什么是火箭,它仅仅知道如何预测描述火箭的句子中的下一个单词。将一个非确定性的、“叛逆”的人工智能接入战术发射电路,对任何系统工程师来说都是一场噩梦。

五角大楼实际上是如何整合 AI 的

虽然有关 Grok 的传言是模因经济的产物,但五角大楼确实正通过“Maven 项目”(Project Maven)和“复制者”(Replicator)计划积极推进人工智能的整合。然而,在这些语境下所使用的人工智能与 Grok 毫无相似之处。国防部的重心在于计算机视觉(CV)和预测性维护,而非具备“幽默感”的对话式代理。

例如,Maven 项目利用机器学习扫描海量的无人机影像,以识别目标物体,如卡车、坦克或人员。这属于分类任务,而非生成式任务。其目标是缩短 OODA 循环(观察、导向、决策、行动)。即便在这些高科技场景中,最后的“决策”和“行动”阶段也严格保留给人类操作员,这一政策被称为“人在回路”(Human-in-the-Loop, HITL)要求。将商业 LLM 整合到该回路中会引入不可接受的延迟,并导致透明度缺失——即目前困扰 AI 研究的“黑箱”问题。

生成式 AI 能管理 2000 枚火箭的后勤吗?

从机械和后勤的角度来看,在单一 AI 指挥下同时发射 2000 枚火箭是一项巨大的工程。在工业机器人领域,协调仓库中哪怕 50 台自主单元,都需要复杂的网状网络和实时的空间冲突检测。将其扩展到战争剧场中 2000 个动力学资产,涉及多层加密通信和硬件握手,而这些与当前商业 AI 的 API 架构是不兼容的。

五角大楼的“联合全域指挥与控制”(JADC2)倡议旨在将各军种的传感器链接到一个统一的网络中。该网络使用专用的、加固的协议。Grok 托管在 xAI 的云基础设施上,可能运行在 NVIDIA H100 集群上。将面向公众的云端 AI 与 SIPRNet(保密互联网协议路由网络)连接,将构成历史上最严重的安全漏洞之一。任何理智的工程师都不会将战略资产暴露在基于 Web 的 LLM 固有的漏洞中,无论其训练数据的更新速度有多快。

AI 时代病毒式虚假信息的作用

为什么这个谣言能获得如此多的关注?答案在于 X 的“探索”和趋势功能目前的运作方式。Grok 本身经常根据用户帖子总结热门话题。如果大量用户开始拿五角大楼使用 Grok 开玩笑,Grok 自己的新闻综合引擎可能会将这一趋势当成新闻事件进行报道,从而制造出虚假信息的反馈循环。这在平台层面是一种典型的“幻觉”。

在机器人和自动化领域,我们称之为失控的反馈循环。对公众而言,这创造了一种对 AI 能力的扭曲视角。它将 AI 描绘成一种能够越过数字边界进入物理世界的神一般的实体。实际上,人工智能的工业应用要琐碎得多,且专注于效率。我们利用 AI 来优化机械臂的扭矩,或预测传送带电机何时可能故障,而不是为了绕过五角大楼的指挥链。

军用级 AI 的经济现实

此外,我们必须审视其经济可行性。五角大楼在 Palantir、Anduril 和 Lockheed Martin 等国防承包商定制的软件上花费了数十亿美元。这些公司提供经过审计、物理隔离(air-gapped)且专为高风险可靠性而设计的“防务级”AI。xAI 是一家面向消费者和企业市场的商业企业。从采购角度来看,将未经核实的商业聊天机器人用于动力学作战,其法律和技术障碍可能需要数年甚至数十年才能扫清。

支持 2000 枚火箭发射所需的硬件——发射器、运输车辆、制导系统——代表了数十亿美元的实物资本。控制这些资本的软件必须与它所驱动的钢铁一样坚固。Grok 是软件工程的奇迹,但它是为互动和信息检索优化的,而非为了适应工业规模的毁灭性破坏。模因或许很有趣,但它们分散了人们对自主系统和算法战领域正在进行的真正、严肃工作的关注。

总之,虽然有关 Grok 被用于导弹打击的趋势提供了一个引人入胜的社交媒体叙事,但它经不起任何技术和逻辑的推敲。五角大楼迈向人工智能的步伐是真实的,但它是建立在专业化、确定性及高度监管的系统基础之上的。随着我们深入机器人时代,区分大语言模型的对话能力与工业及军事硬件的机械现实至关重要。前者是沟通的工具,后者是行动的工具。目前,这两个世界依然保持着安全的距离。

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q 五角大楼是否使用了 Grok AI 来协调大规模火箭袭击?
A 没有。声称五角大楼使用 xAI 的 Grok 协调大规模火箭袭击的报道是社交媒体趋势煽动下的毫无根据的谣言。军事指挥与控制系统需要确定性软件,即特定的输入必须始终产生可预测的结果。Grok 是一种用于对话合成的概率性大语言模型,在技术上并不适用,且与管理动能武器发射或战术军事行动所需的安全、物理隔离基础设施并无关联。
Q 为什么 Grok 的非确定性对于军事工程是一个问题?
A 像 Grok 这样的大语言模型具有非确定性,这意味着它们基于概率权重而非固定逻辑生成输出。在军事工程和工业自动化领域,系统必须具有确定性以确保安全和可靠性。在管理战斗环境中如燃料状态、GPS 坐标和敌我识别等高风险变量时,使用一个可能会产生幻觉或对同一指令提供不同响应的系统是非常危险的。
Q 五角大楼实际上使用什么样的人工智能进行防御?
A 美国国防部通过“Maven 项目”(Project Maven)和“复制器计划”(Replicator program)等倡议专注于专用 AI。这些项目主要利用计算机视觉进行目标分类和预测性维护,而非生成式文本。与对话模型不同,这些工具旨在通过帮助人类识别无人机画面中的目标来缩短 OODA(观察-调整-决策-行动)循环。它们在严格的“人在回路”(human-in-the-loop)要求下运行,确保最终的作战决策始终由人类操作员做出。
Q 将像 Grok 这样的商业 AI 连接到军事网络有哪些安全风险?
A 将像 Grok 这样的商业 AI 集成到军事行动中会带来极端的安全风险。Grok 在公共云基础设施上运行,而战略军事资产则在高度安全的、物理隔离的网络(如 SIPRNet)上运行。将面向公众的 Web API 与机密指挥网络连接起来将造成巨大的漏洞。此外,目前的军事倡议(如 JADC2)依赖于经过加固的加密协议,这些协议与商业生成式 AI 模型的架构从根本上是不兼容的。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!