Violata l'IA ad alta sicurezza Mythos di Anthropic tramite una vulnerabilità della supply chain

Anthropic
Anthropic’s High-Security Mythos AI Breached via Supply Chain Vulnerability
L'accesso non autorizzato al modello riservato Claude Mythos di Anthropic, avvenuto tramite un fornitore esterno, mette in luce le criticità nella sicurezza della supply chain dell'IA privata.

La sicurezza nell'era dell'intelligenza artificiale generativa viene spesso discussa in termini di allineamento e salvaguardie, ma la recente violazione del modello limitato Mythos di Anthropic sposta l'attenzione su una vulnerabilità industriale più tradizionale, e forse più pericolosa: la catena di fornitura di terze parti. Sono emersi rapporti che descrivono in dettaglio come un gruppo privato online sia riuscito a ottenere l'accesso a Claude Mythos, un modello così specializzato nella sicurezza informatica che Anthropic lo aveva ritenuto troppo pericoloso per il rilascio al grande pubblico. Questo incidente, avvenuto non tramite un assalto diretto all'infrastruttura principale di Anthropic ma attraverso l'ambiente di un fornitore, evidenzia una crisi crescente nel modo in cui gli strumenti di IA ad alto rischio vengono distribuiti e protetti all'interno dei settori finanziario e tecnologico globale.

L'architettura di Mythos: perché questo modello era in quarantena

Per comprendere la gravità della violazione, occorre innanzitutto osservare cosa rappresenta Mythos nell'attuale panorama dell'IA. A differenza delle iterazioni standard di Claude con cui il pubblico interagisce, Mythos è stato progettato specificamente per la sicurezza a livello aziendale e per le simulazioni di sicurezza informatica offensiva/difensiva. In termini meccanici, se un LLM standard è un versatile strumento multiuso, Mythos è un kit da scassinatore progettato con precisione. Anthropic ha classificato il modello come portatore di "rischi di sicurezza informatica senza precedenti", proprio perché le sue capacità di identificare le vulnerabilità del software e generare codice sfruttabile superano di gran lunga i guardrail imposti ai modelli consumer.

La decisione dell'azienda di mantenere Mythos in uno stato di quarantena controllata è stata una risposta alla possibilità che il modello automatizzasse la scoperta di zero-day su una scala che i team di sicurezza umani non potrebbero eguagliare. Per progettazione, Mythos era destinato ad assistere le principali istituzioni finanziarie e aziende di sicurezza informatica nel rafforzare i propri sistemi. Tuttavia, le stesse caratteristiche che lo rendono una risorsa per la difesa — una profonda comprensione dell'architettura di sistema e la capacità di simulare complessi vettori di attacco — lo rendono una responsabilità catastrofica se cade nelle mani di attori esterni a un ambiente regolamentato.

Analisi del vettore di violazione

Le indagini iniziali sull'incidente indicano l'ambiente di un fornitore terzo come punto principale di fallimento. Si tratta di un classico problema di sicurezza industriale. Anthropic mantiene rigorosi protocolli interni, ma per fornire servizi al suo elenco di clienti d'élite, deve integrare i propri modelli nei flussi di lavoro di appaltatori esterni e fornitori di infrastrutture. Secondo quanto riferito, i membri di un gruppo non autorizzato, che operava in gran parte attraverso un canale Discord privato, hanno sfruttato le vulnerabilità all'interno di uno di questi ambienti intermedi per stabilire una connessione persistente all'anteprima di Mythos.

Da una prospettiva ingegneristica, questo riflette un fallimento nella "sicurezza perimetrale". Quando un modello viene ospitato o testato in una sandbox di terze parti, la sicurezza di quel modello non è più esclusivamente responsabilità del creatore; è forte solo quanto il sistema di gestione degli accessi del fornitore. In questo caso, il gruppo non autorizzato avrebbe utilizzato diverse strategie per aggirare i protocolli di autenticazione, ottenendo infine un accesso sufficiente a utilizzare regolarmente il modello per i propri scopi. Anthropic ha dichiarato che al momento non vi è alcuna prova che i suoi server interni siano stati compromessi, il che suggerisce che la fuga di notizie sia stata un fallimento della pipeline di distribuzione piuttosto che dell'alloggiamento principale del modello.

Project Glasswing e il paradosso della distribuzione industriale

La violazione è particolarmente delicata data la natura di alto profilo delle entità coinvolte nella fase di test del modello. Conosciuta come Project Glasswing, l'iniziativa mirava a distribuire Mythos a un gruppo selezionato delle istituzioni finanziarie e tecnologiche più potenti del mondo. L'elenco include Amazon, Apple, JP Morgan Chase, Goldman Sachs, Citigroup, Bank of America e Morgan Stanley. Non si trattava di una semplice prova software; era uno sforzo strategico, incoraggiato dal Dipartimento del Tesoro degli Stati Uniti, per utilizzare l'IA come meccanismo di difesa strutturale per la rete finanziaria globale.

Ad aprile, il segretario al Tesoro Scott Bessent avrebbe incontrato alti banchieri per sostenere l'uso di Mythos nel rilevamento di vulnerabilità sistemiche all'interno del settore bancario. Il paradosso qui è chiaro: più è critica l'utilità dello strumento, più i suoi punti di accesso devono essere distribuiti. Coinvolgendo più banche globali e le rispettive infrastrutture IT, la "superficie di attacco" per Mythos si è espansa in modo esponenziale. Ogni banca, e ogni subappaltatore a supporto di tali banche, rappresentava una potenziale porta d'accesso per gli hacker. La violazione attraverso un appaltatore terzo è un duro promemoria del fatto che nel mondo dell'automazione industriale e dell'IA, la periferia è spesso più vulnerabile del centro.

In che modo l'accesso non autorizzato influisce sulla sicurezza dell'IA?

Quando si accede a un modello come Mythos al di fuori dell'ambiente previsto, la preoccupazione principale è la rimozione del monitoraggio e della telemetria. All'interno di Project Glasswing, Anthropic poteva teoricamente monitorare come veniva utilizzato il modello, assicurandosi che venisse applicato solo a compiti difensivi. Nelle mani di un gruppo non autorizzato su un forum privato, questi monitor non esistono. Non c'è più un "interruttore di emergenza" o un comitato di revisione che impedisca al modello di essere incaricato di sviluppare malware o identificare exploit nelle infrastrutture pubbliche.

Inoltre, la violazione consente ad attori malintenzionati di eseguire "test di avversari" a loro piacimento. Possono sondare il modello per trovare le sue debolezze interne, portando potenzialmente a tecniche che potrebbero aggirare i filtri di sicurezza di altri modelli più pubblici. Questo crea un ciclo di feedback in cui un modello ad alta sicurezza violato diventa un banco di prova per sconfiggere la sicurezza dell'IA in tutto il settore. Per un'azienda come Anthropic, che ha costruito il proprio marchio sul concetto di "IA Costituzionale", questa violazione è più di un fallimento tecnico; è una sfida alla loro filosofia fondamentale di distribuzione sicura.

La realtà economica dei rischi di terze parti

Dal punto di vista economico, la violazione di Mythos sottolinea i crescenti costi della sicurezza dell'IA. Mentre aziende come Anthropic, OpenAI e Google DeepMind sviluppano strumenti sempre più potenti, il costo della messa in sicurezza della catena di fornitura probabilmente inizierà a rivaleggiare con il costo dell'addestramento dei modelli stessi. Stiamo assistendo all'emergere di un nuovo settore nell'economia tecnologica: AI Escrow e consegna sicura. Se non ci si può fidare dei fornitori terzi per gestire questi modelli, gli sviluppatori di IA potrebbero essere costretti a costruire i propri stack hardware e di rete proprietari end-to-end per fornire i propri servizi, aumentando significativamente le barriere all'ingresso per l'IA aziendale.

La dipendenza da appaltatori terzi per l'etichettatura dei dati, la manutenzione dei server e la distribuzione edge è attualmente lo standard del settore perché è efficiente. Tuttavia, come dimostra questo incidente, l'efficienza è spesso nemica della sicurezza. Per i giganti finanziari che testano Mythos, la violazione potrebbe portare a un raffreddamento dell'interesse verso le versioni "anteprima" di tecnologie sensibili. Se uno strumento destinato a proteggere una banca può esso stesso essere utilizzato come arma a causa della svista di un appaltatore, il calcolo rischio-rendimento cambia per il top management.

I modelli di IA possono mai essere veramente contenuti?

La violazione di Claude Mythos solleva una domanda difficile: il concetto di un modello "troppo pericoloso da rilasciare" è sostenibile? La storia del settore del software suggerisce che una volta che il codice esiste, alla fine trapela. Che sia attraverso l'ingegneria sociale, le vulnerabilità della catena di fornitura o gli informatori interni, l'entropia dell'informazione è una forza potente. Se un modello è davvero troppo pericoloso per il pubblico, l'atto di condividerlo con qualsiasi partner esterno — anche una banca di fiducia — introduce un rischio non nullo di esposizione totale.

Mentre Anthropic prosegue le sue indagini, il settore osserverà se l'azienda ritirerà il suo modello di test distribuito a favore di un approccio più centralizzato, "solo in locale". Per ora, l'incidente di Mythos funge da ammonimento anche per i settori della robotica e dell'automazione. Mentre integriamo un'IA sofisticata nei sistemi industriali fisici, la sicurezza della connessione è tanto vitale quanto la logica del motore. Un modello compromesso in un data center è un disastro; un modello compromesso che controlla una rete elettrica o una linea di produzione è una catastrofe. Il ponte tra hardware complesso e mercato globale è solido solo quanto l'anello più debole della catena di fornitura.

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q Qual è lo scopo specifico del modello Claude Mythos di Anthropic?
A Claude Mythos è una versione altamente specializzata dell'intelligenza artificiale di Anthropic progettata per la sicurezza informatica di livello aziendale e per le simulazioni difensive. A differenza dei modelli consumer standard, Mythos è in grado di identificare vulnerabilità software e generare codice sfruttabile su scala automatizzata. Poiché può scoprire vulnerabilità zero-day più velocemente dei team umani, Anthropic ne ha limitato l'uso a un ambiente isolato per istituzioni ad alta sicurezza, al fine di evitare che venga trasformato in un'arma per attacchi informatici offensivi.
Q In che modo la vulnerabilità di un fornitore terzo ha portato alla violazione di Mythos?
A La violazione si è verificata perché Anthropic ha integrato il modello Mythos negli ambienti esterni di appaltatori terzi per facilitare i test per i clienti d'élite. Utenti non autorizzati hanno sfruttato protocolli di autenticazione deboli all'interno di questi sistemi intermedi dei fornitori, piuttosto che attaccare direttamente i server principali di Anthropic. Questa falla nella sicurezza perimetrale dimostra che anche i modelli di intelligenza artificiale più sicuri sono protetti solo quanto l'anello più debole della loro pipeline di distribuzione e della catena di fornitura di terze parti.
Q Quali organizzazioni sono state coinvolte nei test di Mythos nell'ambito del Progetto Glasswing?
A Il Progetto Glasswing ha coinvolto un gruppo selezionato di grandi aziende finanziarie e tecnologiche globali, tra cui Apple, Amazon, JP Morgan Chase, Goldman Sachs, Citigroup, Bank of America e Morgan Stanley. Questa iniziativa è stata incoraggiata dal Dipartimento del Tesoro degli Stati Uniti per rafforzare la sicurezza della rete finanziaria globale. Distribuendo Mythos presso queste diverse istituzioni, il progetto mirava a utilizzare approfondimenti basati sull'IA per rilevare e correggere vulnerabilità sistemiche all'interno delle infrastrutture economiche più critiche del mondo.
Q Quali rischi comporta la rimozione del monitoraggio e della telemetria per l'IA ad alta sicurezza?
A Quando si accede a un modello limitato come Mythos al di fuori dell'ambiente previsto, i monitor di sicurezza interni e gli interruttori di emergenza vengono effettivamente disabilitati. Ciò consente ad attori non autorizzati di incaricare il modello di creare malware o identificare exploit per le infrastrutture pubbliche senza alcuna supervisione. Inoltre, ciò abilita test avversariali, in cui malintenzionati possono sondare sistematicamente il modello per trovare debolezze che potrebbero essere utilizzate per aggirare le barriere di sicurezza in altri sistemi di IA in tutto il settore.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!