在国家安全这个高风险领域,容错率几乎为零。当五角大楼即将离任的首席数字和人工智能官(CDAO)Craig Martell 在最近举行的国防人工智能博览会上登台时,他不仅对大语言模型(LLMs)提出了理论批评,还展示了一个生动且近乎超现实的案例:Elon Musk 旗下 xAI 开发的 Grok 聊天机器人竟凭空捏造了一场地缘政治灾难。该 AI 声称美国向伊朗发射了数千枚导弹,尽管这一事件从未发生,但它却以史实般的口吻言之凿凿地陈述出来。
作为一名专注于软件与物理系统桥梁构建的机械工程师和记者,我认为这一事件不仅仅是一个有趣的故障,更是当前生成式 AI 架构与工业及军事基础设施确定性需求之间技术不兼容的根本表现。机器若要在指挥和控制能力中发挥作用,必须立足于物理现实。Grok 的失败表明,我们距离实现这一目标,远比市场炒作所宣称的要遥远。
数字幻觉的剖析
要理解 Grok 为何会虚构导弹袭击,必须探究基于 Transformer 模型的基本机制。这些系统并不具备世界模型;它们不理解“导弹”、“边界”或“五角大楼”的概念。相反,它们是“随机鹦鹉”——即基于大规模训练数据语料库,旨在预测序列中下一个最可能出现的词元(token)的复杂统计引擎。
就 Grok 而言,该模型拥有一项独特功能:实时访问 X(原 Twitter)的数据流。虽然这被营销为保持 AI 时效性的手段,但它引入了一个巨大的工程漏洞。如果数据流中充斥着虚假信息、机器人炮制的叙事,甚至是高频的猜测性言论,LLM 的权重就会发生偏移,从而偏向这些词元。Martell 的实验强调,Grok 获取了零碎、或许是猜测性或讽刺性的帖子,并将它们合成了一段连贯且听起来权威的战争叙述。这并非逻辑故障,因为 LLM 中根本不存在逻辑模块;这是数据流水线以及自然语言生成所固有的“创造力”带来的失败。
对于五角大楼而言,这种“幻觉”是最终的危险信号。在 CDAO 的任务背景下,如果一个 AI 提供的后勤报告摘要有 95% 是准确的,但剩下 5% 却涉及虚构的 7 万枚导弹的移动,那么它就是无用的。在工程学中,我们称之为缺乏可靠性。如果一座桥梁有 95% 的结构是健全的,那它就是失败的。
军事硬件的确定性需求
当我们讨论工业或军事环境中的机器人和自动化系统时,我们讨论的是确定性系统。如果我在特斯拉工厂编写程序让机械臂焊接车门框架,我期望的是一种由 PID(比例-积分-微分)控制器控制的、可重复且精确的动作。输入产生可预测的输出。这种运动受到物理定律和软件代码约束的限制。
将生成式 AI 集成到导弹防御系统或战术数据链中,需要当前 LLM 技术无法达到的验证与确认(V&V)水平。我们缺乏数学工具来保证一个拥有数十亿参数的模型不会在特定、不可预见的词元组合下捏造“开火”指令。这就是为什么尽管热度很高,但五角大楼实际部署的 AI 仍专注于更传统的机器学习模型——用于目标识别的计算机视觉和用于飞机的预测性维护——这些模型的输出是受限且可验证的。
实时数据整合的风险
Elon Musk 经常吹捧 Grok 的“叛逆”本质及其对实时信息的访问能力,称这是它相对于 ChatGPT 或 Claude 的竞争优势。然而,从技术新闻的角度来看,这种实时链接对于高风险决策来说是一种负担。社交媒体上的信息传播速度往往超过了其准确性。当 Grok 处理一个实际上是协同虚假信息活动的“热门”话题时,它缺乏剔除虚假数据的认知框架。
生成式 AI 在国防领域有一席之地吗?
那么问题就变成了:在未来的战争或重工业中,LLM 还有发挥作用的空间吗?Martell 和其他国防领导人并没有完全否定这项技术,但他们主张在这些模型的构建和使用方式上进行重大转变。这涉及一种被称为检索增强生成(RAG)的技术。
在基于 RAG 的系统中,不允许 LLM 从其内部权重生成事实。相反,它被用作可信数据库的接口。如果一位将军询问导弹数量,AI 会查询一个安全、已验证的内部数据库,并仅利用其语言能力来总结这些数据。这让 AI “扎根”于现实。然而,即使有了 RAG,“语义漂移”(即 AI 误解其检索到的数据)对于工程师来说仍然是一个重大障碍。
此外,“自动化偏见”是五角大楼高度重视的一个心理因素。如果像 Grok 这样的系统被集成到仪表盘中,人类操作员可能会过度依赖其摘要。如果 AI 虚构了一次导弹发射,而疲惫的军官即便只相信了 60 秒,随之引发的一系列连锁反应也可能是不可逆的。这就是为什么五角大楼的“负责任 AI”指南强调“人在回路中”或“人在回路上”的系统,即由 AI 提供建议而非执行命令。
经济与战略后果
从工业角度来看,五角大楼公开与“Grok 式的可靠性”保持距离,是对更广泛 AI 市场的经济信号。如果全球最大的技术采购方——美国国防部——都无法信任生成式 AI 来执行关键任务,这表明商业领域也应该保持同样的谨慎。航空航天、核能和医疗机器人等行业很可能会跟随五角大楼的步伐,青睐专业、小型且更易验证的模型,而不是会捏造战争的“通用” AI。
Elon Musk 的 xAI 目前正基于 Grok 卓越智能的承诺寻求巨额估值。然而,没有准确性的智能是一种负担。Grok 若想超越 X Premium 订阅用户的“新奇玩物”,成为我所报道的“工业接口”工具,就必须进行根本性的重新设计。它需要一个理解物理因果关系的“世界模型”,而不仅仅是一个理解词频的“语言模型”。
随着 Martell 即将结束在 CDAO 的任期,他的警告为 AI 行业提供了一个必要的现实检验。我们目前正在制造速度更快、表达更清晰的引擎,但我们尚未制造出一个可靠的方向盘。除非我们能在根本的架构层面解决幻觉问题,否则世界上最强大的 AI 仍将是一个充满风险的“幻觉制造者”,随时可能凭空捏造出 7 万枚导弹。
Comments
No comments yet. Be the first!