La scommessa algoritmica del Pentagono sull'IA generativa

Nel teatro ad alto rischio della guerra moderna, il confine tra elaborazione dei dati e azione cinetica si sta assottigliando a un ritmo senza precedenti. Recenti rapporti, secondo cui il Dipartimento della Difesa degli Stati Uniti avrebbe utilizzato modelli linguistici di grandi dimensioni (LLM) commerciali, nello specifico Grok sviluppato dalla xAI di Elon Musk, per assistere nell'identificazione di bersagli per attacchi aerei in Medio Oriente, hanno provocato un terremoto sia nel settore tecnologico che in quello della difesa. Sebbene il Pentagono cerchi da tempo di integrare l'intelligenza artificiale nella "catena di uccisione" (kill chain), il passaggio dalla visione artificiale specializzata a modelli generativi generalisti, spesso imprevedibili, rappresenta un cambiamento fondamentale nella dottrina militare e un significativo rischio ingegneristico.

Per comprendere la gravità di tali rapporti, bisogna innanzitutto distinguere tra le tipologie di IA attualmente in gioco nel complesso militare-industriale. Per oltre un decennio, iniziative come il Project Maven si sono concentrate sulla visione artificiale, insegnando agli algoritmi a identificare un carro armato T-72 o una batteria di missili terra-aria dalle immagini satellitari. Si tratta di compiti di classificazione basati su dati visivi che, sebbene complessi, operano su un obiettivo deterministico di precisione. L'introduzione di LLM come Grok in questo ecosistema cambia la natura del compito dall'identificazione alla sintesi e al ragionamento, un ambito in cui l'IA generativa è notoriamente instabile.

Il disallineamento tecnico degli LLM commerciali in combattimento

Da una prospettiva di ingegneria meccanica e dei sistemi, il requisito primario per qualsiasi componente in un ambiente tattico è l'affidabilità. Che si tratti della resistenza alla trazione di una pala di turbina o delle porte logiche in un sistema di controllo di volo, l'output deve essere prevedibile. Gli LLM generalisti sono, per progettazione, probabilistici. Non "conoscono" i fatti; prevedono il token successivo più probabile in una sequenza basandosi sui dati di addestramento. Quando un LLM come Grok — che è stato esplicitamente commercializzato come dotato di una personalità "tagliente" e propenso a fornire risposte non convenzionali — viene utilizzato per sintetizzare rapporti di intelligence, il rischio di "allucinazione" diventa una questione letterale di vita o di morte.

Perché i decisori militari si stanno rivolgendo a xAI

Sorge spontanea la domanda: perché il Dipartimento della Difesa dovrebbe rivolgersi a un modello commercialmente disponibile e relativamente non testato come Grok? La risposta risiede nelle enormi capacità di ingestione di dati di questi modelli. La guerra moderna genera quotidianamente petabyte di dati, dai SIGINT (intelligence dei segnali) ai feed dei social media open-source. Gli analisti umani rappresentano il collo di bottiglia. Grok, essendo stato addestrato sul flusso di dati in tempo reale della piattaforma X (ex Twitter), offre una capacità che i modelli militari più datati e isolati non possiedono: la capacità di analizzare eventi attuali e linguaggi colloquiali in tempo reale.

Tuttavia, questa dipendenza dai dati dei social media in tempo reale costituisce una vulnerabilità strutturale. Il set di addestramento di Grok è intrinsecamente rumoroso, pieno di disinformazione, propaganda e proprio di quel "sarcasmo" che Musk ha pubblicizzato come una caratteristica. Per un ufficiale addetto alla selezione dei bersagli, la differenza tra un legittimo incontro di insorti e un raduno di civili può risiedere in una singola frase tradotta male o in un post sarcastico. Quando l'IA sintetizza questi dati disparati in una raccomandazione di bersaglio, crea una "scatola nera" di ragionamento. L'essere umano nel circuito (human-in-the-loop), posto di fronte a una giustificazione apparentemente coerente per un attacco generata da un'IA, può cadere vittima del bias di automazione: la tendenza a fidarsi di un suggerimento algoritmico piuttosto che della propria intuizione o di prove contrastanti.

Il divario di affidabilità nel targeting algoritmico

In qualsiasi applicazione industriale, i sistemi critici per la sicurezza sono sottoposti a rigorosi stress test e analisi dei casi limite (edge-case). I modelli di IA generativa mancano attualmente di un quadro standardizzato per questo livello di validazione. Quando osserviamo le prestazioni di Grok nei benchmark pubblici, spesso fatica con la logica di base e la coerenza fattuale, un tratto che condivide con concorrenti come GPT-4 o Gemini. Ma mentre un'allucinazione in un chatbot del servizio clienti si traduce in un utente frustrato, un'allucinazione in uno strumento di selezione dei bersagli militari si traduce in danni collaterali ed escalation geopolitica.

Inoltre, la natura proprietaria dei pesi e delle metodologie di addestramento di xAI rappresenta un ostacolo significativo per la responsabilità militare. Se un attacco fallisce a causa di un difetto nel ragionamento dell'IA, di chi è la responsabilità? Si tratta di un errore dell'operatore, degli ingegneri del software presso xAI o degli ufficiali approvvigionatori che hanno bypassato test più rigorosi? La mancanza di trasparenza sul modo in cui Grok giunge alle sue conclusioni rende impossibile condurre una tradizionale analisi forense post-mortem su un'operazione fallita. Questo "problema di interpretabilità" è una questione nota nella ricerca sull'IA, ma la sua applicazione nella guerra cinetica rappresenta un pericoloso passo avanti senza le necessarie reti di sicurezza.

Implicazioni geopolitiche della guerra con IA ad alta velocità

L'uso di Grok nel targeting di asset legati all'Iran non è solo un fallimento tecnico; è un segnale al resto del mondo che la barriera all'ingresso per la forza letale si sta abbassando. Se gli Stati Uniti segnalano di essere disposti ad affidare le proprie decisioni più sensibili a un'IA nota per il suo comportamento irregolare, incoraggiano una corsa agli armamenti nel processo decisionale "autonomo". Ci stiamo muovendo verso una realtà in cui la velocità del conflitto supera la cognizione umana, costringendo gli avversari ad adottare anch'essi strumenti di IA ad alta velocità per competere.

Ciò crea un ciclo di feedback di instabilità. Se due sistemi di IA contrapposti, entrambi addestrati su dati rumorosi e inclini alle allucinazioni, prendono decisioni su un'escalation, il rischio di una guerra accidentale aumenta esponenzialmente. L'ingegnere pragmatico osserva questo sistema e vede un enorme potenziale di guasti a catena. In un sistema complesso, più i componenti sono strettamente accoppiati — e più velocemente operano — più è probabile che subiscano un collasso catastrofico quando una singola parte non funziona correttamente. In questo caso, la parte malfunzionante è la percezione della realtà da parte dell'IA.

Esiste un percorso verso un'integrazione responsabile?

Il fascino dell'IA in ambito militare è innegabile. La capacità di elaborare vaste quantità di informazioni e identificare schemi che gli esseri umani potrebbero perdere è un moltiplicatore di forza legittimo. Tuttavia, l'integrazione deve essere gestita con lo stesso rigore di qualsiasi altro sistema aerospaziale o meccanico. Ciò significa allontanarsi dagli LLM commerciali generalisti e puntare a modelli specifici per il dominio, addestrati su dati verificati e classificati, e progettati con la "spiegabilità" al centro.

Dobbiamo anche stabilire chiare zone di "divieto" per l'IA. Sebbene l'IA possa essere inestimabile per la logistica, l'ottimizzazione della catena di approvvigionamento e la manutenzione predittiva dell'hardware, il suo ruolo nella selezione effettiva di bersagli umani dovrebbe essere strettamente limitato, se non addirittura vietato, finché il problema delle allucinazioni non sarà risolto. L'uso di Grok, uno strumento costruito per il coinvolgimento e l'intrattenimento, nel contesto di campagne di bombardamento è un duro promemoria del fatto che la fretta di modernizzare può talvolta portare a una regressione nel giudizio umano.

Mentre continuiamo a mappare l'interfaccia tra robotica e industria umana, la lezione dell'esperimento Grok del Pentagono è chiara: la precisione non può essere sacrificata per la velocità. Nel mondo dell'ingegneria, sappiamo che un sistema è forte tanto quanto il suo anello più debole. Nella catena di uccisione moderna, quell'anello è sempre più fatto di codice e, al momento, quel codice è troppo fragile per il peso che gli viene chiesto di sostenere. Il passaggio verso la guerra algoritmica richiede più di un semplice software migliore; richiede una nuova etica dell'ingegneria che dia priorità alla conservazione della supervisione umana nelle nostre macchine più letali.

La scommessa algoritmica del Pentagono sull'IA generativa

Il disallineamento tecnico degli LLM commerciali in combattimento

Perché i decisori militari si stanno rivolgendo a xAI

Il divario di affidabilità nel targeting algoritmico

Implicazioni geopolitiche della guerra con IA ad alta velocità

Esiste un percorso verso un'integrazione responsabile?

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments