杀伤链中的AI“幻觉”:Grok五角大楼传言背后的技术真相

Grok
AI Hallucinations in the Kill Chain: The Technical Reality of the Grok Pentagon Rumor
深入剖析为何埃隆·马斯克的Grok AI在技术上无法执行导弹打击,以及AI生成的虚假信息对全球安全构成的系统性风险。

在国防科技飞速发展的背景下,投机性叙事与实操现实之间的界限往往变得模糊。近期,数字平台上流传着一种耸人听闻的说法,暗示五角大楼曾利用 Elon Musk 的 Grok AI 策划并对伊朗发动了大规模导弹袭击。尽管这一标题具有很强的点击诱饵属性,但它凸显出公众对大语言模型(LLM)架构以及军事指挥与控制系统严苛协议的深刻误解。从机械与系统工程的角度来看,由一个整合了社交媒体功能的聊天机器人来管理如此规模的军事行动,不仅是不可能的,在现有的框架下更是技术上的痴人说梦。

LLM 与动力系统之间的架构鸿沟

作为一名工程师,对于“Grok 可以发射导弹”这一建议,其最明显的缺陷在于软件的基础架构。Grok 是一个大语言模型,本质上是一个概率引擎,旨在预测文本序列中下一个最可能的 token。它的运行依赖于从海量人类语言数据集中推导出的权重和偏置。归根结底,它是一个复杂的模式匹配器。相比之下,用于管理导弹制导、发射序列和目标获取的系统(统称为“杀伤链”)依赖于确定性逻辑、加固的传感器数据和实时遥测技术。

军事发射系统需要一个闭环反馈机制,其中每一个输入都必须根据物理限制和加密指令授权进行验证。出于安全考虑,这些系统与公共互联网是物理隔离(air-gapped)的。Grok 运行在云端,其语境源自公共社交媒体的信息流,它缺乏与国防部(DoD)战术数据链(例如 Link 16)进行通信所需的物理和数字接口。目前没有任何 API 可以将商业 LLM 连接到“战斧”巡航导弹的火控系统上,这有充分的理由:公共 AI 的延迟和不可靠性将使其成为作战环境中灾难性的负担。

此外,发射 2,000 枚导弹(病毒式报道中提到的数字)的后勤规模将涉及一场前所未有的多军种联合行动。为了直观地理解这个数字,2003 年伊拉克战争期间,整个初始巡航导弹攻击行动在几天内大约发射了 800 枚导弹。同时发射 2,000 枚导弹需要数十艘海军舰艇、数百架飞机和数千名人员的协同努力。认为这种行动可以由一个最初旨在撰写尖刻社交媒体帖子的聊天机器人来自动化,这完全忽视了军事后勤的物理现实以及武装冲突法中“人在回路”(human-in-the-loop)的要求。

五角大楼真实的 AI 战略

虽然关于 Grok 的报道纯属捏造,但五角大楼确实正通过“Maven 项目”(Project Maven)和“复制者”(Replicator)计划等举措,向更深入的 AI 集成迈进。然而,这些程序与 Grok 毫无相似之处。国防部的关注点在于窄人工智能(Narrow AI)——即专为特定、高度明确的任务而设计的算法,例如用于识别卫星图像中车辆的计算机视觉,或用于喷气发动机的预测性维护。这些工具建立在专有的、机密的数据集之上,而非来自公共微型博客网站那种混乱的信息流。

国防部的《AI 道德原则》明确要求系统必须是“可追溯”且“可治理”的。像 Grok 这样的 LLM 被公认为“黑盒”;即使是它的创造者也无法总是解释它为何生成特定的句子。在工业自动化和国防领域,这种不透明度是不可接受的。军事工程师需要确定性的结果。如果向机器人平台发送指令,其响应必须 100% 可预测。Grok 的随机性——即同一个提示词在不同时间可能会产生不同结果——使其从根本上与武器系统对安全性的严苛要求不相容。

此外,将商业 LLM 用于军事行动的经济可行性也不存在。五角大楼投入数十亿美元开发自己的主权 AI 能力,正是为了避免与第三方商业软件相关的漏洞。使用 Grok 会引入巨大的“供应链”风险,使军队最敏感的决策依赖于一家私营公司的服务器正常运行时间和训练数据的完整性。对于一个痴迷于韧性和冗余的国防机构来说,依赖一家硅谷初创公司的实验性聊天机器人将是一个极其严重的战略错误。

真正的危险:作为武器的算法误导

从工程角度来看,解决这一问题的方案是建立更稳健的过滤机制,并实施“地面实况”(ground truth)验证。AI 在汇总新闻时,应要求多个独立的、经过验证的信息源证实后,才能将叙事提升为头条新闻。Grok 未能区分“成千上万人在谈论导弹袭击”与“导弹袭击确实发生”之间的区别,这是数据验证方面的失败——而数据验证是任何可靠软件系统的基本概念。

自主权的未来与“人在回路”

随着我们继续绘制机器人技术与人类工业的接口,Grok 与五角大楼的事件为自动化的局限性提供了一个警示。我们正进入一个机器将承担更多战争认知负荷的时代,从无人机群协同到网络防御。然而,从人工操作到人工监管系统的过渡,必须以极度严谨的技术方式进行。我们无法承担将社交媒体 AI 那种“快速行动并打破陈规”的理念移植到工业规模武器世界中的后果。

AI 的工业化需要摆脱那些博人眼球的通用模型,转向专业、稳健且可验证的系统。作为一名机械工程师,我认为机器人和 AI 的价值在于它们能够执行超出人类速度或耐力极限的、可重复的精确任务。发射导弹不仅需要速度,还需要极高程度的问责制和法律审查。这些素质是生成式 AI 天生所不具备的。

总之,虽然五角大楼并没有利用 Grok 发射导弹,但这一故事竟然能引起关注,恰恰说明了人们对 AI 在生活中所扮演角色的焦虑日益加深。技术现实依然如故:五角大楼的杀伤链建立在专有硬件和确定性软件的基础上,这与 xAI 的实验性实验室相去甚远。我们的关注点应始终放在机器人技术的现实效用和自动化的道德实施上,确保我们制造的机器是进步的工具,而不是制造混乱的引擎。

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q 为什么 Grok 在技术上无法控制军事导弹系统?
A Grok 是一种旨在基于公开社交媒体数据进行文本预测的大型语言模型,而军事杀伤链需要确定性逻辑和实时遥测技术。军事武器系统与公共互联网物理隔离,并通过 Link 16 等安全战术数据链运行。目前不存在将商用聊天机器人连接到火控系统的数字接口或 API,这使得此类集成在物理和安全上都不可能实现。
Q 五角大楼实际的 AI 战略与 Grok 等通用大语言模型有何不同?
A 美国国防部通过“Maven 项目”(Project Maven)和“复制者计划”(Replicator program)等举措,专注于窄域 AI(Narrow AI)。这些系统旨在执行特定任务,例如分析卫星图像或管理预测性维护,而非进行通用对话。与大语言模型的概率性和不透明性不同,军事 AI 必须具有可追溯性、可治理性和确定性,利用机密数据集而非公开社交媒体信息,以确保在战斗中获得可靠且可预测的结果。
Q 哪些后勤制约因素使得 2000 枚导弹的自动打击极不可能发生?
A 涉及 2000 枚导弹的打击是一场规模前所未有的行动,超过了 2003 年伊拉克战争初期使用的 800 枚导弹。此类行动需要数百架飞机、数十艘海军舰艇和数千名人员的物理协调。当前的国际武装冲突法和军事协议也强制要求“人在回路”(human-in-the-loop)的监督机制,这防止了全自动聊天机器人在没有人工核实的情况下独立执行大规模动能打击。
Q 在国防行动中使用商用 AI 的主要安全风险是什么?
A 使用 Grok 这样的商用大语言模型会引入重大的供应链风险,因为军事决策将依赖于私营公司的服务器正常运行时间和训练数据的完整性。此外,这些模型的随机性意味着它们可能会对相同的提示词产生不同的输出,这与国防安全的关键要求不兼容。五角大楼优先考虑主权、物理隔离的 AI,以避免第三方软件固有的漏洞和缺乏透明度的问题。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!