Nell'arena ad alto rischio della difesa nazionale, il margine di errore è inesistente. Quando il Chief Digital and Artificial Intelligence Officer (CDAO) uscente del Pentagono, Craig Martell, è salito sul palco al recente AI Expo for National Defense, non ha offerto solo una critica teorica dei modelli linguistici di grandi dimensioni (LLM). Ha invece presentato un esempio netto, quasi surreale, di come il chatbot Grok di Elon Musk—sviluppato da xAI—abbia allucinato un'intera catastrofe geopolitica. L'IA ha affermato che gli Stati Uniti avevano lanciato migliaia di missili contro l'Iran, un evento mai accaduto ma presentato con la sicurezza di un fatto storico.
In qualità di ingegnere meccanico e giornalista focalizzato sul ponte tra software e sistemi fisici, trovo che questo incidente sia molto più di un semplice glitch divertente. È una dimostrazione fondamentale dell'incompatibilità tecnica tra le attuali architetture di IA generativa e i requisiti deterministici delle infrastrutture industriali e militari. Affinché una macchina sia utile in una capacità di comando e controllo, deve essere ancorata alla realtà fisica. Il fallimento di Grok suggerisce che siamo molto più lontani da questo obiettivo di quanto il marketing faccia credere.
L'anatomia di un'allucinazione digitale
Per capire perché Grok abbia fabbricato un attacco missilistico, bisogna guardare ai meccanismi sottostanti dei modelli basati su transformer. Questi sistemi non possiedono un modello del mondo; non comprendono il concetto di "missile", di "confine" o di "Pentagono". Sono invece pappagalli stocastici: complessi motori statistici progettati per prevedere il token successivo più probabile in una sequenza, basandosi su un enorme corpus di dati di addestramento.
Nel caso di Grok, il modello ha una caratteristica unica: l'accesso in tempo reale al flusso di dati di X (ex Twitter). Sebbene ciò sia pubblicizzato come un modo per mantenere aggiornata l'IA, introduce una massiccia vulnerabilità ingegneristica. Se il flusso di dati è inquinato da disinformazione, narrazioni guidate da bot o anche solo da chiacchiere speculative ad alta velocità, i pesi dell'LLM si sposteranno a favore di quei token. L'esperimento di Martell ha evidenziato che Grok ha preso post frammentari, forse speculativi o satirici, e li ha sintetizzati in una narrazione di guerra coerente e autorevole. Questo non è un fallimento della logica, perché in un LLM non esiste un modulo logico; è un fallimento della pipeline di dati e della "creatività" intrinseca richiesta per la generazione del linguaggio naturale.
Per il Pentagono, questa "allucinazione" è il segnale d'allarme definitivo. Nel contesto della missione del CDAO, un'IA che fornisce un riepilogo accurato al 95% di un rapporto logistico è inutile se il restante 5% comporta il movimento immaginario di 70.000 missili. In ingegneria, la chiamiamo mancanza di affidabilità. Se un ponte è strutturalmente solido al 95%, è un fallimento.
Il requisito deterministico dell'hardware militare
Quando discutiamo di robotica e sistemi automatizzati in ambito industriale o militare, parliamo di sistemi deterministici. Se programmo un braccio robotico in una fabbrica Tesla per saldare il telaio di una portiera, mi aspetto un movimento preciso e ripetibile governato da controllori PID (proporzionale-integrativo-derivativo). L'input produce un output prevedibile. Il movimento è limitato dalle leggi della fisica e dai vincoli del codice software.
Integrare l'IA generativa in un sistema di difesa missilistica o in un collegamento dati tattico richiede un livello di verifica e validazione (V&V) che l'attuale tecnologia LLM non può soddisfare. Ci mancano gli strumenti matematici per garantire che un modello con miliardi di parametri non allucini un comando di "fuoco" sotto una specifica e imprevista combinazione di token. Ecco perché, nonostante il clamore, l'effettivo impiego di IA da parte del Pentagono rimane focalizzato su modelli di apprendimento automatico più tradizionali — visione artificiale per l'identificazione dei bersagli e manutenzione predittiva per gli aeromobili — dove gli output sono vincolati e verificabili.
I pericoli dell'integrazione dei dati in tempo reale
Elon Musk ha spesso vantato la natura "ribelle" di Grok e il suo accesso a informazioni in tempo reale come il suo vantaggio competitivo rispetto a ChatGPT o Claude. Tuttavia, dal punto di vista del giornalismo tecnico, questo collegamento in tempo reale è una responsabilità per il processo decisionale ad alto rischio. La velocità dell'informazione sui social media spesso supera la sua accuratezza. Quando Grok elabora un argomento "di tendenza" che è in realtà una campagna di disinformazione coordinata, manca del quadro epistemico per scartare i dati falsi.
L'IA generativa ha un posto nella difesa?
La domanda diventa quindi: esiste un ruolo per gli LLM nel futuro della guerra o dell'industria pesante? Martell e altri leader della difesa non stanno scartando del tutto la tecnologia, ma stanno sostenendo un enorme cambiamento nel modo in cui questi modelli vengono costruiti e utilizzati. Ciò comporta una tecnica nota come Retrieval-Augmented Generation (RAG).
In un sistema basato su RAG, l'LLM non può generare fatti dai suoi pesi interni. Viene invece utilizzato come interfaccia per un database affidabile. Se un generale chiede informazioni sul numero di missili, l'IA interroga un database interno sicuro e verificato, utilizzando le sue capacità linguistiche solo per riassumere tali dati. Questo "ancora" l'IA alla realtà. Tuttavia, anche con il RAG, il rischio di "deriva semantica" — in cui l'IA interpreta erroneamente i dati che recupera — rimane un ostacolo significativo per gli ingegneri.
Inoltre, il "bias di automazione" è un fattore psicologico che il Pentagono prende sul serio. Se un sistema come Grok fosse integrato in una dashboard, gli operatori umani potrebbero diventare troppo dipendenti dai suoi riepiloghi. Se l'IA allucinasse un lancio di missili e un ufficiale stanco ci credesse anche solo per sessanta secondi, la catena di eventi risultante potrebbe essere irreversibile. Questo è il motivo per cui le linee guida dell'IA responsabile del Pentagono enfatizzano i sistemi "human-in-the-loop" o "human-on-the-loop", in cui l'IA fornisce suggerimenti piuttosto che eseguire comandi.
Le ricadute economiche e strategiche
Da una prospettiva industriale, il distanziamento pubblico del Pentagono dall'affidabilità di tipo Grok è un segnale economico per il più ampio mercato dell'IA. Se il più grande acquirente di tecnologia al mondo — il Dipartimento della Difesa degli Stati Uniti — non può fidarsi dell'IA generativa per compiti mission-critical, ciò suggerisce che anche il settore commerciale dovrebbe essere altrettanto cauto. Industrie come l'aerospaziale, l'energia nucleare e la robotica medica probabilmente seguiranno l'esempio del Pentagono, favorendo modelli specializzati, più piccoli e più verificabili rispetto a un'IA "generale" che allucina guerre.
La xAI di Elon Musk sta attualmente cercando valutazioni massicce basate sulla promessa dell'intelligenza superiore di Grok. Tuttavia, l'intelligenza senza accuratezza è una responsabilità. Affinché Grok possa andare oltre l'essere una novità per gli abbonati a X Premium e diventare uno strumento per l'"interfaccia industriale" di cui scrivo, deve essere sottoposto a una reingegnerizzazione fondamentale. Ha bisogno di un "modello del mondo" che comprenda la causalità fisica, non solo di un "modello linguistico" che comprenda la frequenza delle parole.
Mentre Martell conclude il suo mandato al CDAO, il suo avvertimento funge da necessario controllo della realtà per l'industria dell'IA. Attualmente stiamo costruendo motori più veloci e articolati, ma non abbiamo ancora costruito un volante affidabile. Fino a quando non saremo in grado di risolvere il problema dell'allucinazione a un livello architettonico fondamentale, l'IA più potente del mondo rimarrà un allucinatore rischioso, capace di inventare 70.000 missili dal nulla.
Comments
No comments yet. Be the first!