Craig Martell, directeur du numérique et de l'intelligence artificielle (CDAO) du département de la Défense, s'est montré très sceptique quant au déploiement de modèles de langage (LLM) dans des contextes militaires sensibles. L'incident impliquant Grok — qui a synthétisé une série de blagues et de tweets spéculatifs en un résumé d'actualité aux allures factuelles — met en lumière un phénomène technique connu sous le nom de « boucle d'hallucination ». Pour un ingénieur, il ne s'agit pas d'un simple bug ; c'est un défaut fondamental dans l'architecture des modèles actuels basés sur les transformeurs, qui les rend intrinsèquement incompatibles avec la « chaîne de décision » (kill chain) de la guerre moderne.
L'architecture d'une illusion numérique
Pour comprendre pourquoi Grok a « lancé » des milliers de missiles dans l'espace numérique, il faut examiner les mécanismes de son ingestion de données en temps réel. Contrairement à des modèles comme GPT-4, entraînés sur des jeux de données statiques avec des mises à jour périodiques, Grok est conçu pour utiliser un flux de données en direct provenant de X. Ceci est présenté comme une fonctionnalité — la capacité de fournir des informations « en temps réel ». Cependant, du point de vue de l'ingénierie mécanique, cela crée une boucle de rétroaction sans amortisseur. Lorsque les utilisateurs sur X ont commencé à tweeter des plaisanteries ou des rapports mal interprétés lors d'une période de forte tension géopolitique, les algorithmes de Grok ont identifié un pic de fréquence dans les mots-clés. Il a ensuite synthétisé ces jetons (tokens) en une structure narrative sans couche de vérification secondaire croisée avec des données de capteurs faisant autorité.
Pourquoi le Pentagone rejette les systèmes non déterministes
Le cœur de l'hésitation du Pentagone réside dans la distinction entre systèmes déterministes et non déterministes. Dans l'automatisation industrielle et la robotique traditionnelles, un système est déterministe : à une entrée spécifique, il produira toujours la même sortie. Si un radar détecte une signature thermique avec une vitesse X et une trajectoire Y, le protocole de réponse est fixe. Les LLM sont non déterministes. La même requête peut donner des résultats différents en fonction du réglage de « température » du modèle ou de légères variations dans le flux d'entrée.
Pour Craig Martell et le CDAO, l'incident de Grok prouve que les LLM manquent de la « vérité terrain » nécessaire au commandement et au contrôle. Lors de récentes allocutions publiques, Martell a souligné que le Pentagone ne cherche pas une IA « créative », mais une IA « fiable ». L'hallucination de Grok a démontré que lorsqu'une IA a le pouvoir de synthétiser des informations, elle peut involontairement créer un cycle d'escalade. Dans un futur hypothétique où un tel système serait intégré dans un tableau de bord d'alerte précoce, un titre fabriqué pourrait déclencher une posture défensive qu'un adversaire interpréterait comme un mouvement offensif, conduisant à un lancement réel.
Le risque économique et industriel de l'autonomie de l'IA
Au-delà de la menace immédiate d'un conflit cinétique, il existe une préoccupation industrielle plus large concernant la nature « d'escalade automatisée » de l'IA. Dans la fabrication et la logistique de la chaîne d'approvisionnement, nous voyons une volonté d'intégrer les LLM dans les matrices décisionnelles. Cependant, l'incident de Grok sert également d'avertissement pour le secteur privé. Si une IA gérant un réseau logistique mondial interprète mal une « poussée » de commentaires sur les réseaux sociaux concernant une grève portuaire, elle pourrait réacheminer des milliers de conteneurs, provoquant d'énormes frictions économiques basées sur une hallucination.
Les spécifications techniques requises pour une IA de qualité militaire impliquent des tests d'intrusion (red-teaming) rigoureux et la mise en œuvre de « garde-fous » qui sont souvent en contradiction avec les cycles de publication itératifs et rapides de la Silicon Valley. L'approche de Musk avec Grok — publier des versions « bêta » au public et les laisser interagir avec des données réelles non vérifiées — est l'antithèse du cadre « Responsible AI » du département de la Défense. Ce cadre exige que chaque action pilotée par l'IA soit traçable, vérifiable et, surtout, sous le contrôle d'un opérateur humain ayant accès aux sources de données sous-jacentes.
Peut-on construire un LLM « ancré » ?
La question demeure : est-il possible de résoudre le problème de l'hallucination pour les applications de défense ? Les ingénieurs expérimentent actuellement la « génération augmentée par récupération » (RAG). Dans une configuration RAG, le LLM n'est pas autorisé à simplement deviner le jeton suivant en fonction de son entraînement ; il doit d'abord interroger une base de données privée et fiable — comme un réseau de capteurs militaires — et utiliser ces données pour ancrer sa réponse. Si Grok avait utilisé le RAG ancré sur les données réelles du Commandement de la défense aérospatiale de l'Amérique du Nord (NORAD), il aurait vu qu'aucun missile n'était en vol, et le titre n'aurait jamais été généré.
Cependant, le RAG n'est pas une solution miracle. La latence impliquée par l'interrogation de bases de données massives peut ralentir le temps de réponse d'une IA, annulant l'avantage de vitesse qui rend l'IA attrayante pour la défense en premier lieu. De plus, la complexité de l'intégration de formats de données disparates — de l'imagerie thermique aux rafales radio cryptées — dans un format qu'un LLM peut comprendre est un défi d'ingénierie monumental. Nous sommes à des années, voire des décennies, du moment où un LLM pourra fusionner de manière fiable des données multi-domaines sans risque d'interprétation « créative ».
Les retombées géopolitiques de la réalité synthétique
La préoccupation du Pentagone ne concerne pas seulement ce que fait *notre* IA ; elle concerne ce que pourrait faire l'IA d'un adversaire. Si un service de renseignement étranger perçoit que les décideurs occidentaux commencent à s'appuyer sur des résumés synthétisés par IA, ils peuvent se livrer à un « empoisonnement des données ». En inondant les réseaux sociaux ou les réseaux non classifiés de mots-clés et de récits spécifiques, ils peuvent effectivement « programmer » un LLM comme Grok de l'extérieur, induisant une hallucination qui sert leurs intérêts stratégiques. Il s'agit d'une nouvelle forme de cyberguerre où la cible n'est pas le matériel, mais la logique même du modèle.
L'incident Grok-Iran était une version à faible enjeu de ce scénario. Aucun missile n'a été tiré, mais le « choc » sur l'écosystème de l'information était réel. Cela a forcé une discussion publique sur les dangers de l'IA « non filtrée ». Pour le Pentagone, c'était une validation de leur approche prudente, voire « lente », de l'adoption de l'IA. Tandis que la Silicon Valley avance vite et casse des choses, les militaires savent que dans leur monde, « casser des choses » implique généralement des explosifs puissants et des conséquences irréversibles.
En fin de compte, le rôle de l'IA dans l'armée sera probablement limité aux tâches « administratives » — logistique, planification de la maintenance et tri des données — pour un avenir prévisible. La « chaîne de décision » restera obstinément humaine et déterministe. En tant que Noah Brooks, je considère cela comme une mesure de protection nécessaire. La complexité mécanique de la guerre est trop élevée, et le coût d'une « hallucination » trop lourd, pour permettre à un perroquet stochastique d'avoir le doigt sur le bouton. L'incident de Grok était un signal d'alarme ; la prochaine fois qu'un chatbot hallucine une guerre, nous n'aurons peut-être pas la chance de découvrir qu'il ne s'agissait que d'un bug sur une application.
Comments
No comments yet. Be the first!