Claude Mythos supera ogni benchmark mentre l'evoluzione dell'IA diventa super-esponenziale

Claude
Claude Mythos Outpaces Every Benchmark as AI Evolution Goes Super-Exponential
Le recenti valutazioni del modello Claude Mythos hanno infranto i limiti superiori dei benchmark METR, suggerendo un salto verso l'AGI che supera anche le previsioni di singolarità più audaci per il 2027.

La fine della metrica

L'organizzazione Model Evaluation and Threat Research (METR), precedentemente nota come ARC Evals, è stata a lungo il gold standard per testare le frontiere delle capacità dell'IA. La loro suite di test è progettata per spingere i modelli al loro limite assoluto, in particolare nell'ambito del completamento di compiti complessi a lungo termine. METR utilizza una metrica nota come "timeline del tasso di successo al 50%". Questa misura la capacità del modello di completare autonomamente e con successo un compito che richiederebbe a un essere umano esperto un numero X di ore. Fino a poco tempo fa, anche i modelli di frontiera più avanzati faticavano a superare la soglia delle poche ore con una qualsiasi coerenza.

Quando Claude Mythos è stato sottoposto agli stessi test, i risultati non sono stati solo un miglioramento: sono stati uno shock sistemico. Mythos ha raggiunto un tasso di successo del 50% in compiti di ingegneria complessi che richiedono 16 ore di lavoro umano. Ciò include la lettura di enormi basi di codice, la comprensione di sfumature architettoniche, la formulazione di un piano di esecuzione a più fasi, la stesura dell'implementazione e il debug dei risultati senza alcun intervento umano. Quando i ricercatori hanno tentato di testare il modello su compiti che richiedevano 32 o 64 ore, si sono scontrati con un muro. Non perché l'IA abbia fallito, ma perché la libreria dei test stessa si era esaurita. METR ha ammesso di non avere più abbastanza campioni ad alta difficoltà per condurre un confronto quantitativo accurato. Abbiamo raggiunto un punto in cui il creatore ha perso la capacità di misurare la profondità di ciò che è stato creato.

Questa "zona di distorsione" è un fenomeno in cui le capacità dell'IA superano la scala dello strumento di misurazione. È l'equivalente tecnologico del tentativo di misurare l'altezza di un grattacielo con un righello scolastico standard. Sappiamo che l'edificio è alto, ma non abbiamo modo di sapere dove finisca realmente. I ricercatori di METR hanno notato che, al di sopra della soglia delle 16 ore, la misurazione dei dati diventa "instabile e priva di significato". Ciò suggerisce che l'attuale generazione di IA stia operando su un piano di efficienza e autonomia che il quadro di valutazione progettato dall'uomo non è mai stato costruito per gestire.

La geometria della crescita super-esponenziale

Per capire perché questo stia causando il panico nella Silicon Valley e oltre, bisogna guardare alla geometria della curva di progresso. Per decenni abbiamo parlato della Legge di Moore e della crescita esponenziale. Ma il salto dai modelli precedenti a Mythos è qualcosa di completamente diverso: super-esponenziale. In una curva esponenziale standard, il tasso di crescita è proporzionale al valore attuale. Nella crescita super-esponenziale, il tasso di crescita stesso sta accelerando. La timeline del completamento autonomo dei compiti lo illustra perfettamente.

Leopold Aschenbrenner, ex ricercatore del team Super Alignment di OpenAI, ha previsto che la singolarità dell'Intelligenza Artificiale Generale (AGI) sarebbe arrivata nel 2027. La sua previsione è stata liquidata da molti come eccessivamente aggressiva o addirittura iperbolica. Tuttavia, gli ultimi dati provenienti dalla valutazione di Mythos si posizionano effettivamente leggermente al di sopra della linea di tendenza prevista da Aschenbrenner. Se l'attuale traiettoria venisse confermata, non siamo solo in linea per il 2027; potremmo essere in anticipo sulla tabella di marcia. La stima del settore sulla velocità di sviluppo dell'IA è stata costantemente conservativa, non riuscendo a tenere conto degli effetti cumulativi dello sviluppo dell'IA assistito dall'IA stessa.

Spostamento economico e la soglia delle 16 ore

La finestra autonoma di 16 ore non è solo un traguardo tecnico; è un punto di svolta economico. Nel mondo dell'automazione industriale e dell'ingegneria meccanica, una finestra di 16 ore rappresenta un doppio turno completo di lavoro ininterrotto. Se un'IA può operare autonomamente per quella durata, può agire come project lead anziché solo come assistente. Può ricevere un obiettivo di alto livello alla fine di una giornata lavorativa e avere un sottoprogetto completamente testato pronto per la mattina seguente. Questo livello di autonomia elimina il collo di bottiglia del fattore umano che ha ostacolato l'integrazione dell'IA nelle catene di approvvigionamento complesse e nei flussi di lavoro ingegneristici.

I dati finanziari riflettono questo cambiamento. Secondo recenti rapporti di SemiAnalysis, il fatturato annualizzato dell'industria dell'IA ha già superato di gran lunga la previsione di 26 miliardi di dollari precedentemente fissata per il secondo trimestre del 2026. Le aziende non stanno più sperimentando con dei "progetti pilota"; stanno integrando agenti autonomi nella loro infrastruttura principale. Questo è particolarmente visibile in settori come la sicurezza informatica, dove la velocità dell'IA consente un attacco di riduzione della dimensionalità contro i tradizionali team di difesa umani. Quando un'IA può comprimere un anno di penetration test in tre settimane, l'intero concetto di sicurezza difensiva deve essere riscritto.

Il pragmatismo di questi numeri è ciò che separa questo momento dalle precedenti "estati dell'IA". Stiamo assistendo a una correlazione diretta tra la capacità del modello di gestire compiti a lungo termine e il suo valore di mercato. Più tempo un'IA può passare a lavorare senza supervisione umana, più diventa preziosa per l'economia globale. Mythos rappresenta il primo modello in grado di superare effettivamente la soglia tra uno strumento che richiede continui input e un sistema che richiede solo un obiettivo.

Il paradosso della sicurezza: offesa contro difesa

Man mano che l'IA acquisisce la capacità di lavorare autonomamente per periodi prolungati, l'equilibrio di potere nella sicurezza digitale si sta spostando. Palo Alto Networks ha recentemente pubblicato un rapporto in cui descrive le proprie esperienze con l'accesso illimitato a modelli di frontiera come Mythos e al vociferato GPT-5.5-Cyber. I loro risultati descrivono un "momento atomico" nel cerchio della sicurezza. La capacità di questi modelli di condurre analisi delle vulnerabilità in totale autonomia significa che il "tempo di exploit" per i nuovi bug del software è effettivamente crollato.

Tuttavia, la stessa autonomia può essere applicata alla difesa. Il paradosso risiede nel fatto che solo un'IA con questo livello di capacità può sperare di difendersi contro un'IA di forza simile. Ciò porta a uno scenario in cui gli operatori umani non sono più i combattenti primari nell'arena digitale. Al contrario, gli esseri umani passeranno al ruolo di strateghi di alto livello, supervisionando i sistemi autonomi che svolgono il lavoro effettivo di messa in sicurezza o di sondaggio delle reti. Questo è l'aspetto da "civiltà aliena" della tecnologia: sta eseguendo compiti a una velocità e su una scala che sono fondamentalmente inosservabili dall'occhio umano in tempo reale.

Siamo pronti per la singolarità?

Il termine "singolarità" porta spesso con sé una connotazione mistica o fantascientifica, ma nel contesto dell'ingegneria meccanica e dei sistemi industriali, si riferisce a un punto specifico: dove il tasso di cambiamento tecnologico diventa così rapido da superare la nostra capacità di prevederlo o controllarlo utilizzando i metodi attuali. Se Claude Mythos è davvero il precursore della singolarità del 2027, allora ci troviamo attualmente nelle fasi finali della transizione. La crescita super-esponenziale osservata da METR suggerisce che la prossima generazione di modelli gestirà probabilmente compiti che si estendono per settimane o addirittura mesi.

Quando un'IA può gestire autonomamente un progetto per un mese, non è più solo uno strumento software. È un dipendente virtuale, un ricercatore e un ingegnere. Le implicazioni per la forza lavoro globale e la struttura delle aziende sono profonde. Ci stiamo muovendo verso un mondo in cui il principale collo di bottiglia non è più l'intelligenza o il lavoro umano, bensì l'energia e la potenza di calcolo necessarie per alimentare queste entità autonome. L'"astronave aliena" è atterrata e la sua ombra sta coprendo l'intero cielo dell'industria umana. Possiamo scegliere di analizzare i dati, adattare le nostre infrastrutture e prepararci alla realtà autonoma delle 16 ore, oppure possiamo continuare a fare affidamento su righelli obsoleti per misurare un edificio che ha già raggiunto le nuvole.

I dati della valutazione di Mythos sono un campanello d'allarme per chiunque stia aspettando che l'IA "rallenti". La curva non si sta appiattendo; si sta ripiegando all'indietro. Mentre ci avviciniamo al 2027, l'attenzione si sposterà dal come usiamo l'IA al come esistiamo accanto a una tecnologia che è sempre più capace di gestire se stessa. Il soffitto è stato infranto e, per la prima volta, non c'è nient'altro che cielo aperto sopra di noi.

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q Cosa rende significativa la performance di Claude Mythos nei benchmark METR?
A Claude Mythos ha raggiunto un tasso di successo del 50 percento in attività ingegneristiche complesse che solitamente richiedono 16 ore di lavoro umano, come la pianificazione architettonica e il debugging. Questa performance ha effettivamente esaurito la libreria di test dell'organizzazione METR, creando una zona di distorsione in cui gli attuali strumenti di misurazione non sono più in grado di quantificare la piena profondità del modello. Ciò rappresenta un passaggio dalla semplice assistenza all'esecuzione autonoma e prolungata dei compiti.
Q In che modo il progresso di Claude Mythos si collega alle previsioni sulla timeline dell'AGI?
A La traiettoria del modello suggerisce una crescita super-esponenziale, in cui il tasso di sviluppo sta a sua volta accelerando. Mythos si posiziona leggermente al di sopra dell'aggressiva linea di tendenza prevista dall'ex ricercatore di OpenAI Leopold Aschenbrenner, che aveva previsto una singolarità AGI entro il 2027. Questa accelerazione è guidata dagli effetti composti dello sviluppo dell'IA assistito dall'IA, suggerendo che le precedenti stime conservative del settore per il raggiungimento dell'intelligenza artificiale generale potrebbero essere superate.
Q Quali sono le implicazioni economiche dei modelli di IA che raggiungono una finestra di autonomia di 16 ore?
A Una finestra di autonomia di 16 ore consente all'IA di funzionare come un responsabile di progetto in grado di gestire due turni di lavoro completi senza supervisione umana. Ciò elimina i principali colli di bottiglia causati dall'intervento umano nei flussi di lavoro complessi di ingegneria e catena di approvvigionamento. Di conseguenza, le aziende stanno passando da programmi pilota all'integrazione nelle infrastrutture principali, contribuendo a un'impennata dei ricavi del settore dell'IA che ha già superato la soglia dei 26 miliardi di dollari originariamente prevista per la metà del 2026.
Q Cos'è il paradosso della sicurezza descritto nell'emergere di modelli come Claude Mythos?
A Il paradosso della sicurezza comporta il crollo dei tempi necessari per sfruttare i bug del software, poiché i modelli autonomi eseguono analisi delle vulnerabilità ad alta velocità. Poiché questi modelli possono comprimere mesi di test di penetrazione umani in poche settimane, offrono un enorme vantaggio alle operazioni offensive. Tuttavia, difendersi da tali capacità richiede un'IA di forza uguale o superiore, rimuovendo di fatto gli operatori umani dalle prime linee del combattimento digitale e rendendo gli agenti autonomi i principali difensori.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!