Perché il Pentagono mette in guardia dal problema delle allucinazioni di Grok

Grok
Why the Pentagon is Warning Against Grok’s Hallucination Problem
Il capo dell'IA del Pentagono, Craig Martell, utilizza una clamorosa allucinazione di Grok per evidenziare i critici problemi di affidabilità dei modelli linguistici di grandi dimensioni (LLM) in contesti militari.

Nell'arena ad alto rischio della difesa nazionale, il margine di errore è inesistente. Quando il Chief Digital and Artificial Intelligence Officer (CDAO) uscente del Pentagono, Craig Martell, è salito sul palco al recente AI Expo for National Defense, non ha offerto solo una critica teorica dei modelli linguistici di grandi dimensioni (LLM). Ha invece presentato un esempio netto, quasi surreale, di come il chatbot Grok di Elon Musk—sviluppato da xAI—abbia allucinato un'intera catastrofe geopolitica. L'IA ha affermato che gli Stati Uniti avevano lanciato migliaia di missili contro l'Iran, un evento mai accaduto ma presentato con la sicurezza di un fatto storico.

In qualità di ingegnere meccanico e giornalista focalizzato sul ponte tra software e sistemi fisici, trovo che questo incidente sia molto più di un semplice glitch divertente. È una dimostrazione fondamentale dell'incompatibilità tecnica tra le attuali architetture di IA generativa e i requisiti deterministici delle infrastrutture industriali e militari. Affinché una macchina sia utile in una capacità di comando e controllo, deve essere ancorata alla realtà fisica. Il fallimento di Grok suggerisce che siamo molto più lontani da questo obiettivo di quanto il marketing faccia credere.

L'anatomia di un'allucinazione digitale

Per capire perché Grok abbia fabbricato un attacco missilistico, bisogna guardare ai meccanismi sottostanti dei modelli basati su transformer. Questi sistemi non possiedono un modello del mondo; non comprendono il concetto di "missile", di "confine" o di "Pentagono". Sono invece pappagalli stocastici: complessi motori statistici progettati per prevedere il token successivo più probabile in una sequenza, basandosi su un enorme corpus di dati di addestramento.

Nel caso di Grok, il modello ha una caratteristica unica: l'accesso in tempo reale al flusso di dati di X (ex Twitter). Sebbene ciò sia pubblicizzato come un modo per mantenere aggiornata l'IA, introduce una massiccia vulnerabilità ingegneristica. Se il flusso di dati è inquinato da disinformazione, narrazioni guidate da bot o anche solo da chiacchiere speculative ad alta velocità, i pesi dell'LLM si sposteranno a favore di quei token. L'esperimento di Martell ha evidenziato che Grok ha preso post frammentari, forse speculativi o satirici, e li ha sintetizzati in una narrazione di guerra coerente e autorevole. Questo non è un fallimento della logica, perché in un LLM non esiste un modulo logico; è un fallimento della pipeline di dati e della "creatività" intrinseca richiesta per la generazione del linguaggio naturale.

Per il Pentagono, questa "allucinazione" è il segnale d'allarme definitivo. Nel contesto della missione del CDAO, un'IA che fornisce un riepilogo accurato al 95% di un rapporto logistico è inutile se il restante 5% comporta il movimento immaginario di 70.000 missili. In ingegneria, la chiamiamo mancanza di affidabilità. Se un ponte è strutturalmente solido al 95%, è un fallimento.

Il requisito deterministico dell'hardware militare

Quando discutiamo di robotica e sistemi automatizzati in ambito industriale o militare, parliamo di sistemi deterministici. Se programmo un braccio robotico in una fabbrica Tesla per saldare il telaio di una portiera, mi aspetto un movimento preciso e ripetibile governato da controllori PID (proporzionale-integrativo-derivativo). L'input produce un output prevedibile. Il movimento è limitato dalle leggi della fisica e dai vincoli del codice software.

Integrare l'IA generativa in un sistema di difesa missilistica o in un collegamento dati tattico richiede un livello di verifica e validazione (V&V) che l'attuale tecnologia LLM non può soddisfare. Ci mancano gli strumenti matematici per garantire che un modello con miliardi di parametri non allucini un comando di "fuoco" sotto una specifica e imprevista combinazione di token. Ecco perché, nonostante il clamore, l'effettivo impiego di IA da parte del Pentagono rimane focalizzato su modelli di apprendimento automatico più tradizionali — visione artificiale per l'identificazione dei bersagli e manutenzione predittiva per gli aeromobili — dove gli output sono vincolati e verificabili.

I pericoli dell'integrazione dei dati in tempo reale

Elon Musk ha spesso vantato la natura "ribelle" di Grok e il suo accesso a informazioni in tempo reale come il suo vantaggio competitivo rispetto a ChatGPT o Claude. Tuttavia, dal punto di vista del giornalismo tecnico, questo collegamento in tempo reale è una responsabilità per il processo decisionale ad alto rischio. La velocità dell'informazione sui social media spesso supera la sua accuratezza. Quando Grok elabora un argomento "di tendenza" che è in realtà una campagna di disinformazione coordinata, manca del quadro epistemico per scartare i dati falsi.

L'IA generativa ha un posto nella difesa?

La domanda diventa quindi: esiste un ruolo per gli LLM nel futuro della guerra o dell'industria pesante? Martell e altri leader della difesa non stanno scartando del tutto la tecnologia, ma stanno sostenendo un enorme cambiamento nel modo in cui questi modelli vengono costruiti e utilizzati. Ciò comporta una tecnica nota come Retrieval-Augmented Generation (RAG).

In un sistema basato su RAG, l'LLM non può generare fatti dai suoi pesi interni. Viene invece utilizzato come interfaccia per un database affidabile. Se un generale chiede informazioni sul numero di missili, l'IA interroga un database interno sicuro e verificato, utilizzando le sue capacità linguistiche solo per riassumere tali dati. Questo "ancora" l'IA alla realtà. Tuttavia, anche con il RAG, il rischio di "deriva semantica" — in cui l'IA interpreta erroneamente i dati che recupera — rimane un ostacolo significativo per gli ingegneri.

Inoltre, il "bias di automazione" è un fattore psicologico che il Pentagono prende sul serio. Se un sistema come Grok fosse integrato in una dashboard, gli operatori umani potrebbero diventare troppo dipendenti dai suoi riepiloghi. Se l'IA allucinasse un lancio di missili e un ufficiale stanco ci credesse anche solo per sessanta secondi, la catena di eventi risultante potrebbe essere irreversibile. Questo è il motivo per cui le linee guida dell'IA responsabile del Pentagono enfatizzano i sistemi "human-in-the-loop" o "human-on-the-loop", in cui l'IA fornisce suggerimenti piuttosto che eseguire comandi.

Le ricadute economiche e strategiche

Da una prospettiva industriale, il distanziamento pubblico del Pentagono dall'affidabilità di tipo Grok è un segnale economico per il più ampio mercato dell'IA. Se il più grande acquirente di tecnologia al mondo — il Dipartimento della Difesa degli Stati Uniti — non può fidarsi dell'IA generativa per compiti mission-critical, ciò suggerisce che anche il settore commerciale dovrebbe essere altrettanto cauto. Industrie come l'aerospaziale, l'energia nucleare e la robotica medica probabilmente seguiranno l'esempio del Pentagono, favorendo modelli specializzati, più piccoli e più verificabili rispetto a un'IA "generale" che allucina guerre.

La xAI di Elon Musk sta attualmente cercando valutazioni massicce basate sulla promessa dell'intelligenza superiore di Grok. Tuttavia, l'intelligenza senza accuratezza è una responsabilità. Affinché Grok possa andare oltre l'essere una novità per gli abbonati a X Premium e diventare uno strumento per l'"interfaccia industriale" di cui scrivo, deve essere sottoposto a una reingegnerizzazione fondamentale. Ha bisogno di un "modello del mondo" che comprenda la causalità fisica, non solo di un "modello linguistico" che comprenda la frequenza delle parole.

Mentre Martell conclude il suo mandato al CDAO, il suo avvertimento funge da necessario controllo della realtà per l'industria dell'IA. Attualmente stiamo costruendo motori più veloci e articolati, ma non abbiamo ancora costruito un volante affidabile. Fino a quando non saremo in grado di risolvere il problema dell'allucinazione a un livello architettonico fondamentale, l'IA più potente del mondo rimarrà un allucinatore rischioso, capace di inventare 70.000 missili dal nulla.

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q Quale evento specifico ha allucinato il chatbot Grok durante una dimostrazione del Pentagono?
A Durante una presentazione del Chief Digital and Artificial Intelligence Officer del Pentagono, Craig Martell, è emerso che il chatbot Grok di Elon Musk ha inventato una crisi geopolitica. L'IA ha riportato con sicurezza che gli Stati Uniti avevano lanciato migliaia di missili contro l'Iran. Questo incidente è servito come esempio primario di come i modelli linguistici di grandi dimensioni possano presentare narrazioni completamente false con la stessa autorità dei fatti storici, ponendo gravi rischi in contesti militari.
Q Perché l'integrazione di Grok con i dati in tempo reale di X è considerata una vulnerabilità tecnica?
A L'accesso di Grok ai dati in tempo reale di X, precedentemente Twitter, lo rende suscettibile alla disinformazione e a chiacchiere speculative ad alta velocità. Poiché i modelli basati su transformer mancano di un vero modello del mondo e agiscono come motori statistici, possono dare priorità a informazioni di tendenza ma false. Se un flusso di dati è inquinato da bot o post satirici, i pesi del modello si spostano a favore di quei token, portando l'IA a sintetizzare voci frammentate in narrazioni coerenti ma false.
Q In che modo il requisito deterministico dell'hardware militare è in conflitto con gli attuali modelli di IA?
A I sistemi militari e industriali richiedono un'affidabilità deterministica, in cui un input specifico produce costantemente un output prevedibile regolato dalle leggi della fisica o da codice fisso. Gli attuali modelli linguistici di grandi dimensioni sono stocastici, il che significa che i loro output sono probabilistici piuttosto che certi. Poiché gli ingegneri non possono garantire matematicamente che un modello con miliardi di parametri non allucini un comando critico, questi sistemi attualmente non superano gli standard di verifica e validazione necessari per le infrastrutture di comando e controllo.
Q Che cos'è la Retrieval-Augmented Generation (RAG) e come potrebbe migliorare l'affidabilità dell'IA per la difesa?
A La Retrieval-Augmented Generation, o RAG, è una tecnica che impedisce a un'IA di generare fatti basandosi esclusivamente sui propri pesi interni. Invece, il modello funge da interfaccia in linguaggio naturale per un database attendibile e verificato. Quando un utente pone una domanda, l'IA interroga record interni sicuri e utilizza le proprie capacità linguistiche solo per riassumere quei dati specifici. Questo ancoraggio alla realtà aiuta a ridurre al minimo le allucinazioni, sebbene permangano rischi come la deriva semantica e l'errata interpretazione.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!