La guerra inventata da Grok mette in luce i peggiori timori del Pentagono sull'IA

Grok
Grok’s Hallucinated War Highlights the Pentagon’s Deepest AI Fears
Un'indagine su come il chatbot Grok di Elon Musk abbia fabbricato la notizia di un attacco missilistico e sul perché il Dipartimento della Difesa stia lanciando l'allarme sull'integrazione dei modelli linguistici.

Craig Martell, Chief Digital and Artificial Intelligence Officer (CDAO) del Dipartimento della Difesa, ha espresso apertamente il suo scetticismo riguardo all'impiego di LLM in contesti militari sensibili. L'incidente che ha coinvolto Grok—che ha sintetizzato una serie di battute e tweet speculativi in un riassunto giornalistico dall'aspetto veritiero—mette in luce un fenomeno tecnico noto come "loop di allucinazione". Per un ingegnere, non si tratta solo di un glitch; è un difetto fondamentale nell'architettura degli attuali modelli basati su transformer che li rende intrinsecamente incompatibili con la "catena di comando" (kill chain) della guerra moderna.

L'architettura di una delusione digitale

Per capire perché Grok abbia "lanciato" migliaia di missili nello spazio digitale, bisogna guardare ai meccanismi di acquisizione dei dati in tempo reale. A differenza di modelli come GPT-4, addestrati su set di dati statici con aggiornamenti periodici, Grok è progettato per utilizzare un flusso di dati live proveniente da X. Questa è presentata come una funzionalità: la capacità di fornire insight in "tempo reale". Tuttavia, da un punto di vista dell'ingegneria meccanica, ciò crea un loop di feedback privo di uno smorzatore. Quando gli utenti su X hanno iniziato a twittare battute o rapporti male interpretati durante un periodo di alta tensione geopolitica, gli algoritmi di Grok hanno identificato un picco nella frequenza delle parole chiave. Hanno quindi sintetizzato questi token in una struttura narrativa senza un livello di verifica secondario basato su dati sensoriali autorevoli.

Perché il Pentagono rifiuta i sistemi non deterministici

Il nocciolo della titubanza del Pentagono risiede nella distinzione tra sistemi deterministici e non deterministici. Nell'automazione industriale e nella robotica tradizionale, un sistema è deterministico: dato un input specifico, produrrà sempre lo stesso output. Se un radar rileva una traccia termica con velocità X e traiettoria Y, il protocollo di risposta è fisso. Gli LLM sono non deterministici. Lo stesso prompt può produrre risultati diversi in base all'impostazione della "temperatura" del modello o a leggere variazioni nel flusso di input.

Per Craig Martell e il CDAO, l'incidente di Grok è la prova che gli LLM mancano della "verità sul campo" necessaria per il comando e il controllo. Durante recenti interventi pubblici, Martell ha sottolineato che il Pentagono non è alla ricerca di un'IA "creativa", ma di un'IA "affidabile". L'allucinazione di Grok ha dimostrato che quando a un'IA viene dato il potere di sintetizzare informazioni, essa può creare inavvertitamente un ciclo di escalation. In un futuro ipotetico in cui un sistema del genere sia integrato in una dashboard di allerta precoce, un titolo fabbricato potrebbe innescare una postura difensiva che un avversario interpreta come una mossa offensiva, portando a un lancio nel mondo reale.

Il rischio economico e industriale dell'autonomia dell'IA

Oltre alla minaccia immediata di un conflitto cinetico, esiste una preoccupazione industriale più ampia riguardante la natura di "escalation automatizzata" dell'IA. Nella produzione e nella logistica della catena di approvvigionamento, stiamo assistendo a una spinta verso l'integrazione degli LLM nelle matrici decisionali. Tuttavia, l'incidente di Grok funge da avvertimento anche per il settore privato. Se un'IA che gestisce una rete logistica globale interpreta erroneamente un "picco" di chiacchiere sui social media riguardo a uno sciopero portuale, potrebbe ridisradare migliaia di container, causando un enorme attrito economico basato su un'allucinazione.

Le specifiche tecniche richieste per un'IA di grado militare comportano un rigoroso "red-teaming" e l'implementazione di "guardrail" che sono spesso in contrasto con i rapidi cicli di rilascio iterativi della Silicon Valley. L'approccio di Musk con Grok—rilasciare versioni "beta" al pubblico e lasciar loro interagire con dati live non verificati—è l'antitesi del framework di "IA Responsabile" del Dipartimento della Difesa. Questo framework esige che ogni azione guidata dall'IA sia tracciabile, verificabile e, soprattutto, sotto il controllo di un operatore umano che abbia accesso alle fonti di dati sottostanti.

Possiamo costruire un LLM "fondato"?

La domanda rimane: è possibile risolvere il problema dell'allucinazione per le applicazioni di difesa? Gli ingegneri stanno attualmente sperimentando la "Retrieval-Augmented Generation" (RAG). In un setup RAG, all'LLM non è permesso di indovinare semplicemente il token successivo in base al suo addestramento; deve prima interrogare un database privato e attendibile—come una rete di sensori militari—e utilizzare quei dati per ancorare la propria risposta. Se Grok avesse utilizzato un sistema RAG ancorato ai dati effettivi del North American Aerospace Defense Command (NORAD), avrebbe visto che nessun missile era in volo e il titolo non sarebbe mai stato generato.

Tuttavia, la RAG non è una soluzione miracolosa. La latenza insita nell'interrogazione di enormi database può rallentare il tempo di risposta di un'IA, annullando il vantaggio di velocità che rende l'IA attraente per la difesa in primo luogo. Inoltre, la complessità dell'integrazione di formati di dati disparati—dall'imaging termico alle raffiche radio criptate—in un formato che un LLM possa comprendere è una sfida ingegneristica monumentale. Siamo a anni, se non decenni, di distanza dal momento in cui un LLM sarà in grado di fondere in modo affidabile dati multidominio senza il rischio di un'interpretazione "creativa".

Le ricadute geopolitiche della realtà sintetica

La preoccupazione del Pentagono non riguarda solo ciò che fa la *nostra* IA, ma ciò che potrebbe fare l'IA di un avversario. Se un servizio di intelligence straniero percepisce che i decisori occidentali stanno iniziando a fare affidamento su riassunti sintetizzati dall'IA, possono impegnarsi in un "avvelenamento dei dati". Inondando i social media o le reti non classificate con parole chiave e narrazioni specifiche, possono effettivamente "programmare" un LLM come Grok dall'esterno, inducendo un'allucinazione che serve i loro interessi strategici. Questa è una nuova forma di guerra elettronica in cui il bersaglio non è l'hardware, ma la logica stessa del modello.

L'incidente Grok-Iran è stata una versione a bassa posta in gioco di questo scenario. Nessun missile è stato lanciato, ma lo "shock" per l'ecosistema informativo è stato reale. Ha forzato una discussione pubblica sui pericoli dell'IA "non filtrata". Per il Pentagono, è stata una validazione del loro approccio cauto, forse persino "lento", all'adozione dell'IA. Mentre la Silicon Valley corre veloce e rompe le cose, i militari sanno che nel loro mondo, "rompere le cose" comporta solitamente esplosivi potenti e conseguenze irreversibili.

In definitiva, il ruolo dell'IA nei militari sarà probabilmente limitato a compiti di "back-office"—logistica, programmazione della manutenzione e smistamento dati—per il prossimo futuro. La "catena di comando" rimarrà testardamente umana e deterministica. Come Noah Brooks, vedo questo come una salvaguardia necessaria. La complessità meccanica della guerra è troppo alta, e il costo di un'"allucinazione" è troppo elevato, per permettere a un pappagallo stocastico di avere il dito sul pulsante. L'incidente di Grok è stato un campanello d'allarme; la prossima volta che un chatbot allucinerà una guerra, potremmo non essere così fortunati da scoprire che era solo un glitch su un'app.

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q Cosa ha causato l'allucinazione di un attacco missilistico da parte dell'IA Grok durante un periodo di tensione geopolitica?
A Grok ha sintetizzato un riassunto delle notizie attingendo dati in tempo reale direttamente dalla piattaforma social X. Quando gli utenti hanno pubblicato scherzi e tweet speculativi, l'IA ha identificato un picco nella frequenza di alcune parole chiave. Poiché il modello era privo di un livello di verifica secondario o di una connessione a dati sensoriali autorevoli, ha scambiato le chiacchiere satiriche per eventi reali e ha generato una narrazione su uno scontro militare inesistente.
Q Perché il Dipartimento della Difesa distingue tra sistemi di IA deterministici e non deterministici?
A Il Pentagono richiede sistemi deterministici in cui input specifici producano costantemente gli stessi output, il che è fondamentale per l'automazione industriale e i protocolli di risposta militare. I modelli linguistici di grandi dimensioni (LLM) sono non deterministici, il che significa che possono fornire risultati diversi in base alle impostazioni interne o a lievi variazioni dell'input. Questa imprevedibilità li rende inadatti alla catena di comando militare, poiché mancano della verità fondamentale richiesta per operazioni di comando e controllo affidabili.
Q In che modo la Retrieval-Augmented Generation (RAG) aiuta ad ancorare le risposte dell'IA a dati fattuali?
A La Retrieval-Augmented Generation, o RAG, costringe un modello di IA a interrogare un database privato e attendibile prima di generare una risposta. Invece di affidarsi esclusivamente al proprio addestramento per prevedere la parola successiva, l'IA ancora il proprio output a informazioni verificate, come le reti di sensori militari. Sebbene ciò riduca le allucinazioni, rimane una sfida ingegneristica a causa della latenza coinvolta nell'interrogazione di enormi database e della difficoltà di integrare vari formati di dati complessi.
Q Quali sono i pericoli strategici del data poisoning per le reti di difesa integrate dall'IA?
A Il data poisoning si verifica quando un avversario inonda i social media o le reti non classificate con parole chiave specifiche per manipolare dall'esterno la logica di un modello. Se i decisori militari si affidano a riassunti sintetizzati dall'IA, un servizio di intelligence straniero potrebbe indurre un'allucinazione per servire i propri interessi strategici. Questa rappresenta una nuova forma di guerra elettronica in cui la realtà sintetica viene utilizzata per innescare posture difensive o creare attrito economico attraverso la disinformazione automatizzata.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!