五角大楼的生成式 AI 算法豪赌

Grok
The Pentagon’s Algorithmic Gamble with Generative AI
针对将 xAI 的 Grok 等商业大语言模型集成至军事目标锁定与决策系统所带来的技术和伦理风险的深度剖析。

在现代战争的高风险舞台上,数据处理与动能作战之间的界限正在以史无前例的速度模糊化。近期有报道称,美国国防部曾利用商用大语言模型(LLM),特别是 Elon Musk 旗下 xAI 开发的 Grok,来协助识别中东地区的空袭目标,这一消息在科技和国防领域引起了轩然大波。尽管五角大楼长期以来一直寻求将人工智能整合到“杀伤链”(kill chain)中,但从专用计算机视觉转向通用且往往不可预测的生成式模型,标志着军事准则的根本性转变,同时也带来了巨大的工程风险。

要理解这些报道的重要性,首先必须区分当前军工复合体内部所涉及的人工智能类型。十多年来,像“Maven 项目”(Project Maven)这类计划一直专注于计算机视觉——即通过卫星图像教算法识别 T-72 坦克或地对空导弹连。这些是基于视觉数据的分类任务,尽管复杂,但其目标是确定性的准确性。而在这一生态系统中引入像 Grok 这样的大语言模型,将任务性质从识别转变为合成与推理,而生成式人工智能在这一领域以不稳定著称。

商用大语言模型在战斗中的技术断层

从机械与系统工程的角度来看,战术环境中任何组件的首要要求是可靠性。无论是涡轮叶片的抗拉强度,还是飞行控制系统中的逻辑门,其输出结果都必须是可预测的。通用大语言模型在设计上就是概率性的。它们并不“知道”事实;它们只是基于训练数据预测序列中下一个最可能的标记(token)。当像 Grok 这样被明确推销为具有“前卫”(edgy)个性和愿意提供非传统答案的模型被用于合成情报报告时,“幻觉”风险便成了实实在在的生死攸关的问题。

军事决策者为何转向 xAI

问题随之而来:国防部为何要转向像 Grok 这样市面上可见且未经充分验证的模型?答案在于这些模型海量的数据摄取能力。现代战争每天产生拍字节(petabytes)级别的数据,从信号情报(SIGINT)到开源社交媒体动态,应有尽有。人类分析师已成为瓶颈。Grok 因为是在 X 平台(原 Twitter)的实时数据流上进行训练的,提供了一种旧式且更加孤立的军事模型所不具备的能力:即实时解析时事和口语的能力。

然而,这种对实时社交媒体数据的依赖是一种结构性脆弱点。Grok 的训练集本质上是嘈杂的,充斥着虚假信息、宣传,以及 Musk 所吹捧的“刻薄”特性。对于目标锁定官员而言,合法叛乱分子会议与平民聚会之间的区别,可能仅在于一个被误译的短语或一条讽刺性的帖子。当人工智能将这些迥异的数据点合成为目标建议时,它便形成了一个推理的“黑箱”。处于回路中的人类如果看到由人工智能生成的看似连贯的空袭理由,可能会陷入自动化偏见——即倾向于信任算法建议,而非自己的直觉或相互矛盾的证据。

算法定位中的可靠性差距

在任何工业应用中,安全关键系统都要经过严格的压力测试和边界情况分析。目前的生成式人工智能模型缺乏用于这种验证水平的标准化框架。当我们查看 Grok 在公共基准测试中的表现时,它往往在基本逻辑和事实一致性方面表现挣扎,这一点它与 GPT-4 或 Gemini 等竞争对手并无二致。但如果说客户服务聊天机器人中的幻觉只会导致用户感到沮丧,那么军事目标选择工具中的幻觉则会导致附带损害和地缘政治升级。

此外,xAI 模型权重和训练方法的专有性,为军事问责制带来了巨大障碍。如果因为人工智能推理中的缺陷导致空袭出错,责任该由谁承担?是操作员的失误、xAI 软件工程师的过错,还是那些绕过更严苛测试的采购官员的责任?由于 Grok 得出结论的方式缺乏透明度,使得对失败行动进行传统的法医式事后分析变得不可能。这种“可解释性问题”是人工智能研究中的一个已知问题,但将其应用于动能战争,却是在没有必要安全网的情况下向危险迈出的一大步。

高速人工智能战争的地缘政治影响

在针对与伊朗有关联的资产时使用 Grok 不仅仅是一次技术故障;它向世界其他地区发出信号,即致命武力的准入门槛正在降低。如果美国释放出愿意将其最敏感的决策托付给以行为怪异著称的人工智能的信号,这就会刺激“自主”决策领域的军备竞赛。我们正迈向一个冲突速度超过人类认知的现实,迫使对手也必须采用高速人工智能工具来进行竞争。

这会形成不稳定的反馈回路。如果两个对立的人工智能系统都基于嘈杂数据进行训练且容易产生幻觉,并对局势升级做出决策,那么意外战争的风险就会呈指数级增加。务实的工程师看到这个系统时,会发现其存在级联故障的巨大潜力。在复杂系统中,组件耦合得越紧密,运行速度越快,当其中一个部件发生故障时,它们就越有可能经历灾难性的崩溃。在这种情况下,发生故障的部件就是人工智能对现实的感知。

是否存在负责任整合的路径?

人工智能在军事领域的诱惑力是不可否认的。处理海量信息并识别出人类可能遗漏的模式的能力,是一种合法的部队倍增器。然而,这种整合必须像处理任何其他航空航天或机械系统一样进行严格把控。这意味着要放弃通用的商用大语言模型,转向那些在经过审核的机密数据上训练,并以“可解释性”为核心设计的特定领域模型。

我们还必须为人工智能建立明确的“禁区”。虽然人工智能在物流、供应链优化和硬件预测性维护方面具有不可估量的价值,但在幻觉问题得到解决之前,其在人类目标选择中的作用应受到严格限制,甚至应被彻底禁止。在轰炸行动的背景下使用 Grok 这种为互动和娱乐而构建的工具,是一个严酷的提醒:急于实现现代化有时会导致人类判断力的退化。

随着我们继续描绘机器人技术与人类工业的接口,五角大楼 Grok 实验的教训很明确:不能为了速度而牺牲精度。在工程世界中,我们深知一个系统的强度取决于其最薄弱的环节。在现代杀伤链中,这个环节正越来越多地由代码构成,而目前,这些代码对于其所承载的重量来说实在太脆弱了。迈向算法战争需要的不仅仅是更好的软件,更需要一种新的工程伦理,即在我们的杀伤性最强的机器中优先考虑保留人类的监督权。

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q 为什么五角大楼将 xAI 的 Grok 集成到其军事目标打击流程中?
A 美国国防部利用 Grok 来处理现代战争中产生的海量数据。传统的分析人员难以每天处理拍字节(petabytes)级的各类情报,而 Grok 能够整合来自社交媒体和信号情报的实时数据。它在 X 平台上的训练使其能够比孤立的军事模型更快地解析时事和口语,从而弥合了海量数据摄取与可操作情报之间的鸿沟。
Q 生成式人工智能的应用与“Maven 项目”(Project Maven)等早期军事计划有何区别?
A 像“Maven 项目”这样的早期计划侧重于计算机视觉,即识别卫星图像中的坦克或导弹发射阵地等确定性任务。相比之下,像 Grok 这样的生成式人工智能模型将重点转向了综合与推理。这带来了巨大的不稳定性,因为这些模型是概率性的而非确定性的,意味着它们预测的是下一个最可能的词,而不是确认事实,这增加了在高风险环境下出现“幻觉”的风险。
Q 商业大语言模型的“黑箱”性质如何影响军事问责制与安全性?
A 由于像 Grok 这样的模型属于专有技术,其内部推理和训练方法对军事用户来说是不透明的。这种可解释性问题使得一旦打击行动导致平民伤亡,就无法进行取证分析。由于无法透视人工智能得出目标推荐的过程,军方难以轻易追究责任或修复潜在的逻辑缺陷,这与传统经过严苛测试的工业或国防硬件相比,造成了巨大的安全差距。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!