Pourquoi le Pentagone met en garde contre les hallucinations de Grok

Grok
Why the Pentagon is Warning Against Grok’s Hallucination Problem
Craig Martell, chef de l'IA au Pentagone, utilise une hallucination frappante de Grok pour souligner les failles critiques de fiabilité des LLM dans le contexte militaire.

Dans l'arène aux enjeux élevés de la défense nationale, la marge d'erreur est inexistante. Lorsque le directeur du numérique et de l'intelligence artificielle (CDAO) sortant du Pentagone, Craig Martell, est monté sur scène lors du récent AI Expo for National Defense, il n'a pas seulement proposé une critique théorique des grands modèles de langage (LLM). Il a plutôt présenté un exemple frappant, presque surréaliste, de la façon dont le chatbot Grok d'Elon Musk — développé par xAI — a halluciné une catastrophe géopolitique entière. L'IA a affirmé que les États-Unis avaient lancé des milliers de missiles sur l'Iran, un événement qui n'a jamais eu lieu, mais qui a été présenté avec l'assurance d'un fait historique.

En tant qu'ingénieur en mécanique et journaliste spécialisé dans le pont entre les logiciels et les systèmes physiques, je trouve que cet incident est bien plus qu'un simple bug amusant. C'est une démonstration fondamentale de l'incompatibilité technique entre les architectures d'IA générative actuelles et les exigences déterministes des infrastructures industrielles et militaires. Pour qu'une machine soit utile dans une capacité de commandement et de contrôle, elle doit être ancrée dans la réalité physique. L'échec de Grok suggère que nous sommes plus loin de cet objectif que le battage marketing ne le laisse supposer.

L'anatomie d'une hallucination numérique

Pour comprendre pourquoi Grok a inventé une frappe de missiles, il faut examiner les mécanismes sous-jacents des modèles basés sur les transformeurs. Ces systèmes ne possèdent pas de modèle du monde ; ils ne comprennent pas le concept de « missile », de « frontière » ou de « Pentagone ». Ce sont plutôt des perroquets stochastiques : des moteurs statistiques complexes conçus pour prédire le prochain jeton le plus probable dans une séquence, sur la base d'un corpus massif de données d'entraînement.

Dans le cas de Grok, le modèle possède une fonctionnalité unique : un accès en temps réel au flux de données de X (anciennement Twitter). Bien que cela soit présenté comme un moyen de maintenir l'IA à jour, cela introduit une vulnérabilité technique massive. Si le flux de données est pollué par de la désinformation, des narratifs portés par des bots ou simplement par des bavardages spéculatifs à haute vitesse, les poids du LLM se déplaceront pour favoriser ces jetons. L'expérience de Martell a mis en évidence que Grok a pris des messages fragmentés, peut-être spéculatifs ou satiriques, et les a synthétisés en un récit de guerre cohérent et d'apparence autoritaire. Ce n'est pas un échec de la logique, car il n'y a pas de module de logique dans un LLM ; c'est un échec du pipeline de données et de la « créativité » inhérente requise pour la génération de langage naturel.

Pour le Pentagone, cette « hallucination » est le signal d'alarme ultime. Dans le contexte de la mission du CDAO, une IA qui fournit un résumé précis à 95 % d'un rapport logistique est inutile si les 5 % restants impliquent le mouvement imaginaire de 70 000 missiles. En ingénierie, nous appelons cela un manque de fiabilité. Si un pont est structurellement sain à 95 %, c'est un échec.

L'exigence déterministe du matériel militaire

Lorsque nous parlons de robotique et de systèmes automatisés dans un cadre industriel ou militaire, nous parlons de systèmes déterministes. Si je programme un bras robotique dans une usine Tesla pour souder un cadre de porte, j'attends un mouvement répétable et précis régi par des contrôleurs PID (Proportionnel-Intégral-Dérivé). L'entrée produit une sortie prévisible. Le mouvement est limité par les lois de la physique et les contraintes du code logiciel.

L'intégration de l'IA générative dans un système de défense antimissile ou une liaison de données tactique nécessite un niveau de vérification et de validation (V&V) que la technologie LLM actuelle ne peut atteindre. Nous manquons d'outils mathématiques pour garantir qu'un modèle doté de milliards de paramètres n'hallucinera pas un ordre de « tir » sous une combinaison spécifique et imprévue de jetons. C'est pourquoi, malgré le buzz, le déploiement réel de l'IA par le Pentagone reste axé sur des modèles d'apprentissage automatique plus traditionnels — vision par ordinateur pour l'identification des cibles et maintenance prédictive pour les aéronefs — où les sorties sont contraintes et vérifiables.

Les périls de l'intégration de données en temps réel

Elon Musk a fréquemment vanté la nature « rebelle » de Grok et son accès aux informations en temps réel comme son avantage concurrentiel sur ChatGPT ou Claude. Cependant, du point de vue du journalisme technique, ce lien en temps réel est un handicap pour la prise de décision à enjeux élevés. La vitesse de l'information sur les réseaux sociaux dépasse souvent sa précision. Lorsque Grok traite un sujet « tendance » qui est en fait une campagne de désinformation coordonnée, il lui manque le cadre épistémique pour rejeter les fausses données.

L'IA générative a-t-elle sa place dans la défense ?

La question devient alors : y a-t-il un rôle pour les LLM dans l'avenir de la guerre ou de l'industrie lourde ? Martell et d'autres responsables de la défense ne rejettent pas totalement la technologie, mais ils préconisent un changement massif dans la façon dont ces modèles sont construits et utilisés. Cela implique une technique connue sous le nom de génération augmentée par récupération (RAG).

Dans un système basé sur le RAG, le LLM n'est pas autorisé à générer des faits à partir de ses poids internes. Au lieu de cela, il est utilisé comme interface pour une base de données fiable. Si un général pose une question sur le nombre de missiles, l'IA interroge une base de données interne sécurisée et vérifiée, et utilise ses capacités linguistiques uniquement pour résumer ces données. Cela « ancre » l'IA dans la réalité. Cependant, même avec le RAG, le risque de « dérive sémantique » — où l'IA interprète mal les données qu'elle récupère — reste un obstacle majeur pour les ingénieurs.

De plus, le « biais d'automatisation » est un facteur psychologique que le Pentagone prend au sérieux. Si un système comme Grok est intégré à un tableau de bord, les opérateurs humains peuvent devenir trop dépendants de ses résumés. Si l'IA hallucinait un lancement de missile et qu'un officier fatigué y croyait ne serait-ce que soixante secondes, la chaîne d'événements qui en résulterait pourrait être irréversible. C'est pourquoi les directives « IA responsable » du Pentagone mettent l'accent sur les systèmes « homme dans la boucle » (human-in-the-loop) ou « homme sur la boucle » (human-on-the-loop), où l'IA fournit des suggestions plutôt que d'exécuter des commandes.

Les retombées économiques et stratégiques

D'un point de vue industriel, la mise à distance publique du Pentagone vis-à-vis de la fiabilité de type Grok est un signal économique adressé au marché plus large de l'IA. Si le plus grand acheteur de technologie au monde — le département de la Défense des États-Unis — ne peut pas faire confiance à l'IA générative pour des tâches critiques, cela suggère que le secteur commercial devrait être tout aussi prudent. Des secteurs comme l'aérospatiale, l'énergie nucléaire et la robotique médicale suivront probablement l'exemple du Pentagone, privilégiant des modèles spécialisés, plus petits et plus vérifiables plutôt qu'une IA « générale » qui hallucine des guerres.

La société xAI d'Elon Musk cherche actuellement à atteindre des valorisations massives basées sur la promesse de l'intelligence supérieure de Grok. Cependant, l'intelligence sans précision est un handicap. Pour que Grok dépasse le stade de curiosité pour les abonnés X Premium et devienne un outil pour l'« interface industrielle » que je couvre, il doit subir une réingénierie fondamentale. Il a besoin d'un « modèle du monde » qui comprenne la causalité physique, et non d'un simple « modèle de langage » qui comprend la fréquence des mots.

Alors que Martell termine son mandat au CDAO, son avertissement sert de nécessaire rappel à la réalité pour l'industrie de l'IA. Nous construisons actuellement des moteurs plus rapides et plus éloquents, mais nous n'avons pas encore construit de volant fiable. Tant que nous ne pourrons pas résoudre le problème de l'hallucination à un niveau architectural fondamental, l'IA la plus puissante au monde restera une hallucinateuse risquée, capable d'inventer 70 000 missiles à partir de rien.

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q Quel événement spécifique le chatbot Grok a-t-il inventé lors d'une démonstration du Pentagone ?
A Lors d'une présentation par Craig Martell, responsable numérique et de l'intelligence artificielle du Pentagone, il a été révélé que le chatbot Grok d'Elon Musk avait inventé une crise géopolitique. L'IA a rapporté avec assurance que les États-Unis avaient lancé des milliers de missiles sur l'Iran. Cet incident a servi d'exemple majeur de la manière dont les grands modèles linguistiques peuvent présenter des récits entièrement faux avec la même autorité que des faits historiques, posant ainsi de graves risques dans des contextes militaires.
Q Pourquoi l'intégration de Grok avec les données en temps réel de X est-elle considérée comme une vulnérabilité technique ?
A L'accès de Grok aux données en temps réel de X, anciennement Twitter, le rend vulnérable à la désinformation et aux discussions spéculatives à haute vélocité. Étant donné que les modèles basés sur les transformeurs manquent d'un véritable modèle du monde et agissent comme des moteurs statistiques, ils peuvent privilégier des informations tendances mais fausses. Si un flux de données est pollué par des bots ou des publications satiriques, les poids du modèle se déplacent pour favoriser ces jetons, conduisant l'IA à synthétiser des rumeurs fragmentées en récits cohérents mais faux.
Q Comment l'exigence déterministe du matériel militaire entre-t-elle en conflit avec les modèles d'IA actuels ?
A Les systèmes militaires et industriels exigent une fiabilité déterministe, où une entrée spécifique produit systématiquement une sortie prévisible régie par les lois de la physique ou par un code fixe. Les grands modèles linguistiques actuels sont stochastiques, ce qui signifie que leurs sorties sont probabilistes plutôt que certaines. Comme les ingénieurs ne peuvent pas garantir mathématiquement qu'un modèle doté de milliards de paramètres ne fabriquera pas une commande critique, ces systèmes échouent actuellement aux normes de vérification et de validation nécessaires pour les infrastructures de commandement et de contrôle.
Q Qu'est-ce que la génération augmentée par récupération (RAG) et comment pourrait-elle améliorer la fiabilité de l'IA pour la défense ?
A La génération augmentée par récupération, ou RAG, est une technique qui empêche une IA de générer des faits uniquement à partir de ses poids internes. Au lieu de cela, le modèle agit comme une interface en langage naturel pour une base de données fiable et vérifiée. Lorsqu'un utilisateur pose une question, l'IA interroge des dossiers internes sécurisés et utilise uniquement ses capacités linguistiques pour résumer ces données spécifiques. Cet ancrage dans la réalité aide à minimiser les hallucinations, bien que des risques tels que la dérive sémantique et les erreurs d'interprétation persistent.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!