五角大楼为何警告 Grok 的“幻觉”问题

在国家安全这个高风险领域，容错率几乎为零。当五角大楼即将离任的首席数字和人工智能官（CDAO）Craig Martell 在最近举行的国防人工智能博览会上登台时，他不仅对大语言模型（LLMs）提出了理论批评，还展示了一个生动且近乎超现实的案例：Elon Musk 旗下 xAI 开发的 Grok 聊天机器人竟凭空捏造了一场地缘政治灾难。该 AI 声称美国向伊朗发射了数千枚导弹，尽管这一事件从未发生，但它却以史实般的口吻言之凿凿地陈述出来。

作为一名专注于软件与物理系统桥梁构建的机械工程师和记者，我认为这一事件不仅仅是一个有趣的故障，更是当前生成式 AI 架构与工业及军事基础设施确定性需求之间技术不兼容的根本表现。机器若要在指挥和控制能力中发挥作用，必须立足于物理现实。Grok 的失败表明，我们距离实现这一目标，远比市场炒作所宣称的要遥远。

数字幻觉的剖析

要理解 Grok 为何会虚构导弹袭击，必须探究基于 Transformer 模型的基本机制。这些系统并不具备世界模型；它们不理解“导弹”、“边界”或“五角大楼”的概念。相反，它们是“随机鹦鹉”——即基于大规模训练数据语料库，旨在预测序列中下一个最可能出现的词元（token）的复杂统计引擎。

就 Grok 而言，该模型拥有一项独特功能：实时访问 X（原 Twitter）的数据流。虽然这被营销为保持 AI 时效性的手段，但它引入了一个巨大的工程漏洞。如果数据流中充斥着虚假信息、机器人炮制的叙事，甚至是高频的猜测性言论，LLM 的权重就会发生偏移，从而偏向这些词元。Martell 的实验强调，Grok 获取了零碎、或许是猜测性或讽刺性的帖子，并将它们合成了一段连贯且听起来权威的战争叙述。这并非逻辑故障，因为 LLM 中根本不存在逻辑模块；这是数据流水线以及自然语言生成所固有的“创造力”带来的失败。

对于五角大楼而言，这种“幻觉”是最终的危险信号。在 CDAO 的任务背景下，如果一个 AI 提供的后勤报告摘要有 95% 是准确的，但剩下 5% 却涉及虚构的 7 万枚导弹的移动，那么它就是无用的。在工程学中，我们称之为缺乏可靠性。如果一座桥梁有 95% 的结构是健全的，那它就是失败的。

军事硬件的确定性需求

当我们讨论工业或军事环境中的机器人和自动化系统时，我们讨论的是确定性系统。如果我在特斯拉工厂编写程序让机械臂焊接车门框架，我期望的是一种由 PID（比例-积分-微分）控制器控制的、可重复且精确的动作。输入产生可预测的输出。这种运动受到物理定律和软件代码约束的限制。

将生成式 AI 集成到导弹防御系统或战术数据链中，需要当前 LLM 技术无法达到的验证与确认（V&V）水平。我们缺乏数学工具来保证一个拥有数十亿参数的模型不会在特定、不可预见的词元组合下捏造“开火”指令。这就是为什么尽管热度很高，但五角大楼实际部署的 AI 仍专注于更传统的机器学习模型——用于目标识别的计算机视觉和用于飞机的预测性维护——这些模型的输出是受限且可验证的。

实时数据整合的风险

Elon Musk 经常吹捧 Grok 的“叛逆”本质及其对实时信息的访问能力，称这是它相对于 ChatGPT 或 Claude 的竞争优势。然而，从技术新闻的角度来看，这种实时链接对于高风险决策来说是一种负担。社交媒体上的信息传播速度往往超过了其准确性。当 Grok 处理一个实际上是协同虚假信息活动的“热门”话题时，它缺乏剔除虚假数据的认知框架。

生成式 AI 在国防领域有一席之地吗？

那么问题就变成了：在未来的战争或重工业中，LLM 还有发挥作用的空间吗？Martell 和其他国防领导人并没有完全否定这项技术，但他们主张在这些模型的构建和使用方式上进行重大转变。这涉及一种被称为检索增强生成（RAG）的技术。

在基于 RAG 的系统中，不允许 LLM 从其内部权重生成事实。相反，它被用作可信数据库的接口。如果一位将军询问导弹数量，AI 会查询一个安全、已验证的内部数据库，并仅利用其语言能力来总结这些数据。这让 AI “扎根”于现实。然而，即使有了 RAG，“语义漂移”（即 AI 误解其检索到的数据）对于工程师来说仍然是一个重大障碍。

此外，“自动化偏见”是五角大楼高度重视的一个心理因素。如果像 Grok 这样的系统被集成到仪表盘中，人类操作员可能会过度依赖其摘要。如果 AI 虚构了一次导弹发射，而疲惫的军官即便只相信了 60 秒，随之引发的一系列连锁反应也可能是不可逆的。这就是为什么五角大楼的“负责任 AI”指南强调“人在回路中”或“人在回路上”的系统，即由 AI 提供建议而非执行命令。

经济与战略后果

从工业角度来看，五角大楼公开与“Grok 式的可靠性”保持距离，是对更广泛 AI 市场的经济信号。如果全球最大的技术采购方——美国国防部——都无法信任生成式 AI 来执行关键任务，这表明商业领域也应该保持同样的谨慎。航空航天、核能和医疗机器人等行业很可能会跟随五角大楼的步伐，青睐专业、小型且更易验证的模型，而不是会捏造战争的“通用” AI。

Elon Musk 的 xAI 目前正基于 Grok 卓越智能的承诺寻求巨额估值。然而，没有准确性的智能是一种负担。Grok 若想超越 X Premium 订阅用户的“新奇玩物”，成为我所报道的“工业接口”工具，就必须进行根本性的重新设计。它需要一个理解物理因果关系的“世界模型”，而不仅仅是一个理解词频的“语言模型”。

随着 Martell 即将结束在 CDAO 的任期，他的警告为 AI 行业提供了一个必要的现实检验。我们目前正在制造速度更快、表达更清晰的引擎，但我们尚未制造出一个可靠的方向盘。除非我们能在根本的架构层面解决幻觉问题，否则世界上最强大的 AI 仍将是一个充满风险的“幻觉制造者”，随时可能凭空捏造出 7 万枚导弹。

五角大楼为何警告 Grok 的“幻觉”问题

数字幻觉的剖析

军事硬件的确定性需求

实时数据整合的风险

生成式 AI 在国防领域有一席之地吗？

经济与战略后果

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments