Violata l'IA ad alta sicurezza Mythos di Anthropic

La sicurezza nell'era dell'intelligenza artificiale generativa viene spesso discussa in termini di allineamento e salvaguardie, ma la recente violazione del modello limitato Mythos di Anthropic sposta l'attenzione su una vulnerabilità industriale più tradizionale, e forse più pericolosa: la catena di fornitura di terze parti. Sono emersi rapporti che descrivono in dettaglio come un gruppo privato online sia riuscito a ottenere l'accesso a Claude Mythos, un modello così specializzato nella sicurezza informatica che Anthropic lo aveva ritenuto troppo pericoloso per il rilascio al grande pubblico. Questo incidente, avvenuto non tramite un assalto diretto all'infrastruttura principale di Anthropic ma attraverso l'ambiente di un fornitore, evidenzia una crisi crescente nel modo in cui gli strumenti di IA ad alto rischio vengono distribuiti e protetti all'interno dei settori finanziario e tecnologico globale.

L'architettura di Mythos: perché questo modello era in quarantena

Per comprendere la gravità della violazione, occorre innanzitutto osservare cosa rappresenta Mythos nell'attuale panorama dell'IA. A differenza delle iterazioni standard di Claude con cui il pubblico interagisce, Mythos è stato progettato specificamente per la sicurezza a livello aziendale e per le simulazioni di sicurezza informatica offensiva/difensiva. In termini meccanici, se un LLM standard è un versatile strumento multiuso, Mythos è un kit da scassinatore progettato con precisione. Anthropic ha classificato il modello come portatore di "rischi di sicurezza informatica senza precedenti", proprio perché le sue capacità di identificare le vulnerabilità del software e generare codice sfruttabile superano di gran lunga i guardrail imposti ai modelli consumer.

La decisione dell'azienda di mantenere Mythos in uno stato di quarantena controllata è stata una risposta alla possibilità che il modello automatizzasse la scoperta di zero-day su una scala che i team di sicurezza umani non potrebbero eguagliare. Per progettazione, Mythos era destinato ad assistere le principali istituzioni finanziarie e aziende di sicurezza informatica nel rafforzare i propri sistemi. Tuttavia, le stesse caratteristiche che lo rendono una risorsa per la difesa — una profonda comprensione dell'architettura di sistema e la capacità di simulare complessi vettori di attacco — lo rendono una responsabilità catastrofica se cade nelle mani di attori esterni a un ambiente regolamentato.

Analisi del vettore di violazione

Le indagini iniziali sull'incidente indicano l'ambiente di un fornitore terzo come punto principale di fallimento. Si tratta di un classico problema di sicurezza industriale. Anthropic mantiene rigorosi protocolli interni, ma per fornire servizi al suo elenco di clienti d'élite, deve integrare i propri modelli nei flussi di lavoro di appaltatori esterni e fornitori di infrastrutture. Secondo quanto riferito, i membri di un gruppo non autorizzato, che operava in gran parte attraverso un canale Discord privato, hanno sfruttato le vulnerabilità all'interno di uno di questi ambienti intermedi per stabilire una connessione persistente all'anteprima di Mythos.

Da una prospettiva ingegneristica, questo riflette un fallimento nella "sicurezza perimetrale". Quando un modello viene ospitato o testato in una sandbox di terze parti, la sicurezza di quel modello non è più esclusivamente responsabilità del creatore; è forte solo quanto il sistema di gestione degli accessi del fornitore. In questo caso, il gruppo non autorizzato avrebbe utilizzato diverse strategie per aggirare i protocolli di autenticazione, ottenendo infine un accesso sufficiente a utilizzare regolarmente il modello per i propri scopi. Anthropic ha dichiarato che al momento non vi è alcuna prova che i suoi server interni siano stati compromessi, il che suggerisce che la fuga di notizie sia stata un fallimento della pipeline di distribuzione piuttosto che dell'alloggiamento principale del modello.

Project Glasswing e il paradosso della distribuzione industriale

La violazione è particolarmente delicata data la natura di alto profilo delle entità coinvolte nella fase di test del modello. Conosciuta come Project Glasswing, l'iniziativa mirava a distribuire Mythos a un gruppo selezionato delle istituzioni finanziarie e tecnologiche più potenti del mondo. L'elenco include Amazon, Apple, JP Morgan Chase, Goldman Sachs, Citigroup, Bank of America e Morgan Stanley. Non si trattava di una semplice prova software; era uno sforzo strategico, incoraggiato dal Dipartimento del Tesoro degli Stati Uniti, per utilizzare l'IA come meccanismo di difesa strutturale per la rete finanziaria globale.

Ad aprile, il segretario al Tesoro Scott Bessent avrebbe incontrato alti banchieri per sostenere l'uso di Mythos nel rilevamento di vulnerabilità sistemiche all'interno del settore bancario. Il paradosso qui è chiaro: più è critica l'utilità dello strumento, più i suoi punti di accesso devono essere distribuiti. Coinvolgendo più banche globali e le rispettive infrastrutture IT, la "superficie di attacco" per Mythos si è espansa in modo esponenziale. Ogni banca, e ogni subappaltatore a supporto di tali banche, rappresentava una potenziale porta d'accesso per gli hacker. La violazione attraverso un appaltatore terzo è un duro promemoria del fatto che nel mondo dell'automazione industriale e dell'IA, la periferia è spesso più vulnerabile del centro.

In che modo l'accesso non autorizzato influisce sulla sicurezza dell'IA?

Quando si accede a un modello come Mythos al di fuori dell'ambiente previsto, la preoccupazione principale è la rimozione del monitoraggio e della telemetria. All'interno di Project Glasswing, Anthropic poteva teoricamente monitorare come veniva utilizzato il modello, assicurandosi che venisse applicato solo a compiti difensivi. Nelle mani di un gruppo non autorizzato su un forum privato, questi monitor non esistono. Non c'è più un "interruttore di emergenza" o un comitato di revisione che impedisca al modello di essere incaricato di sviluppare malware o identificare exploit nelle infrastrutture pubbliche.

Inoltre, la violazione consente ad attori malintenzionati di eseguire "test di avversari" a loro piacimento. Possono sondare il modello per trovare le sue debolezze interne, portando potenzialmente a tecniche che potrebbero aggirare i filtri di sicurezza di altri modelli più pubblici. Questo crea un ciclo di feedback in cui un modello ad alta sicurezza violato diventa un banco di prova per sconfiggere la sicurezza dell'IA in tutto il settore. Per un'azienda come Anthropic, che ha costruito il proprio marchio sul concetto di "IA Costituzionale", questa violazione è più di un fallimento tecnico; è una sfida alla loro filosofia fondamentale di distribuzione sicura.

La realtà economica dei rischi di terze parti

Dal punto di vista economico, la violazione di Mythos sottolinea i crescenti costi della sicurezza dell'IA. Mentre aziende come Anthropic, OpenAI e Google DeepMind sviluppano strumenti sempre più potenti, il costo della messa in sicurezza della catena di fornitura probabilmente inizierà a rivaleggiare con il costo dell'addestramento dei modelli stessi. Stiamo assistendo all'emergere di un nuovo settore nell'economia tecnologica: AI Escrow e consegna sicura. Se non ci si può fidare dei fornitori terzi per gestire questi modelli, gli sviluppatori di IA potrebbero essere costretti a costruire i propri stack hardware e di rete proprietari end-to-end per fornire i propri servizi, aumentando significativamente le barriere all'ingresso per l'IA aziendale.

La dipendenza da appaltatori terzi per l'etichettatura dei dati, la manutenzione dei server e la distribuzione edge è attualmente lo standard del settore perché è efficiente. Tuttavia, come dimostra questo incidente, l'efficienza è spesso nemica della sicurezza. Per i giganti finanziari che testano Mythos, la violazione potrebbe portare a un raffreddamento dell'interesse verso le versioni "anteprima" di tecnologie sensibili. Se uno strumento destinato a proteggere una banca può esso stesso essere utilizzato come arma a causa della svista di un appaltatore, il calcolo rischio-rendimento cambia per il top management.

I modelli di IA possono mai essere veramente contenuti?

La violazione di Claude Mythos solleva una domanda difficile: il concetto di un modello "troppo pericoloso da rilasciare" è sostenibile? La storia del settore del software suggerisce che una volta che il codice esiste, alla fine trapela. Che sia attraverso l'ingegneria sociale, le vulnerabilità della catena di fornitura o gli informatori interni, l'entropia dell'informazione è una forza potente. Se un modello è davvero troppo pericoloso per il pubblico, l'atto di condividerlo con qualsiasi partner esterno — anche una banca di fiducia — introduce un rischio non nullo di esposizione totale.

Mentre Anthropic prosegue le sue indagini, il settore osserverà se l'azienda ritirerà il suo modello di test distribuito a favore di un approccio più centralizzato, "solo in locale". Per ora, l'incidente di Mythos funge da ammonimento anche per i settori della robotica e dell'automazione. Mentre integriamo un'IA sofisticata nei sistemi industriali fisici, la sicurezza della connessione è tanto vitale quanto la logica del motore. Un modello compromesso in un data center è un disastro; un modello compromesso che controlla una rete elettrica o una linea di produzione è una catastrofe. Il ponte tra hardware complesso e mercato globale è solido solo quanto l'anello più debole della catena di fornitura.

Violata l'IA ad alta sicurezza Mythos di Anthropic tramite una vulnerabilità della supply chain

L'architettura di Mythos: perché questo modello era in quarantena

Analisi del vettore di violazione

Project Glasswing e il paradosso della distribuzione industriale

In che modo l'accesso non autorizzato influisce sulla sicurezza dell'IA?

La realtà economica dei rischi di terze parti

I modelli di IA possono mai essere veramente contenuti?

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments