Grok 坐镇指挥台:评估生成式 AI 在动态打击中的军事可行性

Grok
Grok at the Console: Evaluating the Military Feasibility of Generative AI in Kinetic Strikes
深入剖析美军利用 xAI 的 Grok 进行大规模导弹作战这一报道背后的技术与后勤真相。

从机械工程和系统集成的角度来看,认为像 Grok 这样的生成式 AI 可以“发射”导弹的观点,是对军事硬件如何与软件交互的根本性误解。然而,真相的核心在于五角大楼向“算法战”(Algorithmic Warfare)的激进转型。要理解大语言模型(LLM)如何参与如此大规模的行动,必须透过聊天窗口的用户界面,深入研究美国国防部(DoD)“联合全域指挥与控制”(JADC2)倡议的底层架构。

自动化打击的架构

一次涉及 2000 枚导弹的打击是一项后勤和计算层面的壮举,其规模超出了人类实时的认知能力。在传统的动力学作战中,目标获取、防冲突处理和载油量计算均由一套分散的专业系统处理。目前军方对 Grok 等大语言模型的兴趣,并非在于点火火箭发动机本身,而是在于对分散数据流的综合处理。在法律简报的语境下,对 AI 参与的“承认”通常指的是利用这些模型解析海量的情报、监视和侦察(ISR)数据,以识别最佳的交战窗口。

若要让大语言模型促成这种量级的打击,它将充当一个编排层。它将置于“通用战术态势图”之上,接收来自卫星、高空无人机和地面雷达的传感器数据。技术挑战在于数据融合。现代导弹,特别是美国库存中的战斧巡航导弹(TLAM)或 AGM-158 JASSM,需要精确的地理坐标和时间。大语言模型的作用是将指挥官的自然语言查询转换为机器可执行的参数,从而在人类意图与动力学执行之间架起一座高速桥梁。

大语言模型 vs. 传统目标识别

Grok 在技术上适合这样做吗?区分生成式 AI(大语言模型)与计算机视觉(CV)AI 至关重要。五角大楼多年来一直使用计算机视觉——最著名的是“Maven 项目”(Project Maven)——来从无人机影像中识别车辆和人员。相反,Grok 的设计初衷是进行语言推理和文本中的模式识别。如果五角大楼确实在利用 xAI 的技术,那很可能是利用了该模型执行“检索增强生成”(RAG)的能力。这使得 AI 能够查阅机密战术手册和实时态势报告,从而为 2000 枚弹药建议最高效的射击序列。

现实情况是,同时发射 2000 枚导弹会造成巨大的“数据饱和”问题。每枚导弹都必须拥有清晰的飞行路径以避免空中相撞,并需精确计时以同步打击目标,从而压制敌方的防空系统。人类参谋团队需要几天时间来计算这些变量;而一个足够强大的 AI 在理论上可以在几秒钟内完成。这种速度被军方称为“决策优势”。如果使用了 Grok,它很可能是作为计算破坏后勤的大型计算器,而不是“按动扳机的手指”。

硅基触发器的合法性

近期报告中提到的法律简报,其核心很可能是国防部第 3000.09 号指令,该指令管理着自主和半自主武器系统的开发与使用。该指令规定,所有集成 AI 的武器必须允许“适当水平的人类判断”。争议在于,当 AI 的处理速度超过人类验证数据的能力时,问题便出现了。如果 AI 建议了 2000 个目标,而人类在三秒内点击了“批准”,这究竟是真正的人机协同(human-in-the-loop),还是仅仅停留在人机监控(human-on-the-loop)层面?

马斯克因素与国防自主权

埃隆·马斯克旗下 xAI 的参与增加了一层地缘政治的复杂性。马斯克已经通过 Starlink 控制了现代军事通讯的骨干。将 Grok 集成到五角大楼的指挥结构中,将代表着一种自早期工业大亨时代以来从未见过的私营科技与国家军事力量的纵向整合。对于五角大楼而言,Grok 的吸引力在于它与 OpenAI 的 GPT-4 等竞争对手相比,具有“未经过滤”的特性。军事应用需要一个能够在不设置旨在针对普通消费者的限制性道德护栏的情况下,处理残酷现实的系统。

然而,将商业大语言模型集成到机密军事网络(如 SIPRNet 或 JWICS)是一项浩大的工程。它需要对模型进行“物理隔离”(air-gapping),以防止敏感的军事数据泄露回公共训练集中。如果 Grok 被用于针对伊朗或任何其他对手的行动,这意味着 xAI 已经开发出了该模型的专用安全实例,能够在军用级硬件上运行,很可能是政府控制的云环境中的专用 NVIDIA H100 集群。

经济与工业的可行性

此外,2000 枚导弹打击的工业足迹是巨大的。此类事件将耗尽美国国家库存的很大一部分。能够管理此类打击的 AI 必须同时集成到供应链中,向波音或诺斯罗普·格鲁曼等制造商发出立即补产的信号。这种系统集成的水平正是五角大楼现任 AI 主管所极力倡导的。

我们能信任机器吗?

根本问题依然存在:我们应该信任 AI 去管控 2000 枚导弹吗?从机械角度来看,硬件已经就绪。我们拥有传感器、弹药和数据链路。瓶颈在于人类大脑。如果有关 Grok 参与的报道哪怕有部分属实,它们都释放了一个信号:美军已经认定,在现代高强度冲突中,AI 产生幻觉的风险低于人类反应迟缓的风险。

随着我们迈向“自主蜂群”和“算法指挥”成为常态的未来,工程师的角色已从设计武器转向审计武器发射系统的逻辑。五角大楼 AI 主管据称的表态,预示着战争新时代的到来——在这一时代,武库中最强大的武器不再是导弹本身,而是决定其落点的推理引擎。无论该引擎是 Grok 还是更为机密的政府模型,技术轨迹都很明确:战争的速度现在由 GPU 的速度决定。

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q 像 Grok 这样的 AI 如何协助大规模导弹袭击?
A Grok 的作用是协调层,而非直接的触发机制。在涉及数千枚弹药的行动中,AI 通过处理来自卫星和无人机的海量数据流来解决数据饱和问题。它利用检索增强生成(RAG)技术来综合战术手册和实时报告,计算飞行路径和时机,以确保导弹不会发生碰撞,并能以远超人工协调的速度有效地压制敌方防空系统。
Q Grok 与传统的军事目标识别软件有什么区别?
A 传统的军事 AI(例如 Maven 项目)侧重于计算机视觉,用于识别无人机画面中的车辆或人员等特定物体。相比之下,Grok 是一种旨在进行语言推理的大语言模型。其军事用途在于它能够将自然语言的指挥意图转化为技术参数,并在基于文本的情报报告中执行复杂的模式识别,从而弥合高层战略决策与动力学执行之间的差距。
Q 美军在使用 AI 进行动力学行动时如何保持人类控制?
A 根据美国国防部第 3000.09 号指令,所有集成 AI 的武器系统必须允许适当水平的人类判断。然而,AI 驱动决策的极高速度给传统的“人在回路”(human-in-the-loop)监管带来了挑战。虽然仍需人类批准交战,但像 Grok 这样系统处理的数据量意味着指挥官可能只有几秒钟时间来核实建议,这使得控制模式正转向“人在回路之上”(human-on-the-loop)的监控,而非直接的手动控制。
Q 为什么五角大楼会倾向于选择 xAI 的 Grok 而不是其他生成式 AI 模型用于国防?
A 军方对 Grok 感兴趣是因为它被设计得比 OpenAI 的 GPT-4 等竞争对手更加“无过滤”,后者通常包含不适合处理残酷战斗现实的严格道德护栏。此外,它与星链(Starlink)卫星网络等其他企业具有垂直整合潜力,可提供稳健的通信骨干。这允许在安全的军事网络内部署专门的、与互联网物理隔离(air-gapped)的模型实例,以防止敏感数据泄露。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!