La guerra inventata da Grok preoccupa il Pentagono sull'IA

Craig Martell, Chief Digital and Artificial Intelligence Officer (CDAO) del Dipartimento della Difesa, ha espresso apertamente il suo scetticismo riguardo all'impiego di LLM in contesti militari sensibili. L'incidente che ha coinvolto Grok—che ha sintetizzato una serie di battute e tweet speculativi in un riassunto giornalistico dall'aspetto veritiero—mette in luce un fenomeno tecnico noto come "loop di allucinazione". Per un ingegnere, non si tratta solo di un glitch; è un difetto fondamentale nell'architettura degli attuali modelli basati su transformer che li rende intrinsecamente incompatibili con la "catena di comando" (kill chain) della guerra moderna.

L'architettura di una delusione digitale

Per capire perché Grok abbia "lanciato" migliaia di missili nello spazio digitale, bisogna guardare ai meccanismi di acquisizione dei dati in tempo reale. A differenza di modelli come GPT-4, addestrati su set di dati statici con aggiornamenti periodici, Grok è progettato per utilizzare un flusso di dati live proveniente da X. Questa è presentata come una funzionalità: la capacità di fornire insight in "tempo reale". Tuttavia, da un punto di vista dell'ingegneria meccanica, ciò crea un loop di feedback privo di uno smorzatore. Quando gli utenti su X hanno iniziato a twittare battute o rapporti male interpretati durante un periodo di alta tensione geopolitica, gli algoritmi di Grok hanno identificato un picco nella frequenza delle parole chiave. Hanno quindi sintetizzato questi token in una struttura narrativa senza un livello di verifica secondario basato su dati sensoriali autorevoli.

Perché il Pentagono rifiuta i sistemi non deterministici

Il nocciolo della titubanza del Pentagono risiede nella distinzione tra sistemi deterministici e non deterministici. Nell'automazione industriale e nella robotica tradizionale, un sistema è deterministico: dato un input specifico, produrrà sempre lo stesso output. Se un radar rileva una traccia termica con velocità X e traiettoria Y, il protocollo di risposta è fisso. Gli LLM sono non deterministici. Lo stesso prompt può produrre risultati diversi in base all'impostazione della "temperatura" del modello o a leggere variazioni nel flusso di input.

Per Craig Martell e il CDAO, l'incidente di Grok è la prova che gli LLM mancano della "verità sul campo" necessaria per il comando e il controllo. Durante recenti interventi pubblici, Martell ha sottolineato che il Pentagono non è alla ricerca di un'IA "creativa", ma di un'IA "affidabile". L'allucinazione di Grok ha dimostrato che quando a un'IA viene dato il potere di sintetizzare informazioni, essa può creare inavvertitamente un ciclo di escalation. In un futuro ipotetico in cui un sistema del genere sia integrato in una dashboard di allerta precoce, un titolo fabbricato potrebbe innescare una postura difensiva che un avversario interpreta come una mossa offensiva, portando a un lancio nel mondo reale.

Il rischio economico e industriale dell'autonomia dell'IA

Oltre alla minaccia immediata di un conflitto cinetico, esiste una preoccupazione industriale più ampia riguardante la natura di "escalation automatizzata" dell'IA. Nella produzione e nella logistica della catena di approvvigionamento, stiamo assistendo a una spinta verso l'integrazione degli LLM nelle matrici decisionali. Tuttavia, l'incidente di Grok funge da avvertimento anche per il settore privato. Se un'IA che gestisce una rete logistica globale interpreta erroneamente un "picco" di chiacchiere sui social media riguardo a uno sciopero portuale, potrebbe ridisradare migliaia di container, causando un enorme attrito economico basato su un'allucinazione.

Le specifiche tecniche richieste per un'IA di grado militare comportano un rigoroso "red-teaming" e l'implementazione di "guardrail" che sono spesso in contrasto con i rapidi cicli di rilascio iterativi della Silicon Valley. L'approccio di Musk con Grok—rilasciare versioni "beta" al pubblico e lasciar loro interagire con dati live non verificati—è l'antitesi del framework di "IA Responsabile" del Dipartimento della Difesa. Questo framework esige che ogni azione guidata dall'IA sia tracciabile, verificabile e, soprattutto, sotto il controllo di un operatore umano che abbia accesso alle fonti di dati sottostanti.

Possiamo costruire un LLM "fondato"?

La domanda rimane: è possibile risolvere il problema dell'allucinazione per le applicazioni di difesa? Gli ingegneri stanno attualmente sperimentando la "Retrieval-Augmented Generation" (RAG). In un setup RAG, all'LLM non è permesso di indovinare semplicemente il token successivo in base al suo addestramento; deve prima interrogare un database privato e attendibile—come una rete di sensori militari—e utilizzare quei dati per ancorare la propria risposta. Se Grok avesse utilizzato un sistema RAG ancorato ai dati effettivi del North American Aerospace Defense Command (NORAD), avrebbe visto che nessun missile era in volo e il titolo non sarebbe mai stato generato.

Tuttavia, la RAG non è una soluzione miracolosa. La latenza insita nell'interrogazione di enormi database può rallentare il tempo di risposta di un'IA, annullando il vantaggio di velocità che rende l'IA attraente per la difesa in primo luogo. Inoltre, la complessità dell'integrazione di formati di dati disparati—dall'imaging termico alle raffiche radio criptate—in un formato che un LLM possa comprendere è una sfida ingegneristica monumentale. Siamo a anni, se non decenni, di distanza dal momento in cui un LLM sarà in grado di fondere in modo affidabile dati multidominio senza il rischio di un'interpretazione "creativa".

Le ricadute geopolitiche della realtà sintetica

La preoccupazione del Pentagono non riguarda solo ciò che fa la *nostra* IA, ma ciò che potrebbe fare l'IA di un avversario. Se un servizio di intelligence straniero percepisce che i decisori occidentali stanno iniziando a fare affidamento su riassunti sintetizzati dall'IA, possono impegnarsi in un "avvelenamento dei dati". Inondando i social media o le reti non classificate con parole chiave e narrazioni specifiche, possono effettivamente "programmare" un LLM come Grok dall'esterno, inducendo un'allucinazione che serve i loro interessi strategici. Questa è una nuova forma di guerra elettronica in cui il bersaglio non è l'hardware, ma la logica stessa del modello.

L'incidente Grok-Iran è stata una versione a bassa posta in gioco di questo scenario. Nessun missile è stato lanciato, ma lo "shock" per l'ecosistema informativo è stato reale. Ha forzato una discussione pubblica sui pericoli dell'IA "non filtrata". Per il Pentagono, è stata una validazione del loro approccio cauto, forse persino "lento", all'adozione dell'IA. Mentre la Silicon Valley corre veloce e rompe le cose, i militari sanno che nel loro mondo, "rompere le cose" comporta solitamente esplosivi potenti e conseguenze irreversibili.

In definitiva, il ruolo dell'IA nei militari sarà probabilmente limitato a compiti di "back-office"—logistica, programmazione della manutenzione e smistamento dati—per il prossimo futuro. La "catena di comando" rimarrà testardamente umana e deterministica. Come Noah Brooks, vedo questo come una salvaguardia necessaria. La complessità meccanica della guerra è troppo alta, e il costo di un'"allucinazione" è troppo elevato, per permettere a un pappagallo stocastico di avere il dito sul pulsante. L'incidente di Grok è stato un campanello d'allarme; la prossima volta che un chatbot allucinerà una guerra, potremmo non essere così fortunati da scoprire che era solo un glitch su un'app.

La guerra inventata da Grok mette in luce i peggiori timori del Pentagono sull'IA

L'architettura di una delusione digitale

Perché il Pentagono rifiuta i sistemi non deterministici

Il rischio economico e industriale dell'autonomia dell'IA

Possiamo costruire un LLM "fondato"?

Le ricadute geopolitiche della realtà sintetica

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments