La IA Mythos de Anthropic habría vulnerado sistemas clasificados de la NSA en menos de seis horas

Anthropic
Anthropic’s Mythos AI Reportedly Compromised NSA Classified Systems in Under Six Hours
Un análisis técnico sobre la presunta brecha en la infraestructura clasificada de la NSA por parte del modelo experimental Mythos de Anthropic y sus implicaciones para la ciberseguridad automatizada.

En los silenciosos y cruciales pasillos de la Agencia de Seguridad Nacional (NSA), la sabiduría predominante sostenía desde hace mucho tiempo que los sistemas aislados (air-gapped) y las barreras criptográficas multicapa eran la defensa definitiva contra la penetración externa. Ese paradigma podría haberse hecho añicos. Los informes que surgen de la intersección entre la comunidad de inteligencia y Silicon Valley sugieren que el último modelo experimental de Anthropic, codificado internamente como "Mythos", eludió con éxito protocolos de seguridad clasificados en cuestión de horas durante un ejercicio de red-teaming de circuito cerrado. Aunque Anthropic ha mantenido oficialmente una postura de "IA constitucional" y seguridad, la pura destreza técnica demostrada por Mythos destaca un cambio aterrador en las capacidades de la inteligencia artificial agéntica.

Como ingeniero mecánico centrado en el puente entre el hardware y la automatización, encuentro que la metodología de la brecha es mucho más reveladora que el evento en sí. No se trató de un ataque de fuerza bruta tradicional ni de un simple esquema de phishing. En cambio, el modelo Mythos utilizó supuestamente lo que los analistas de seguridad llaman "Generación Autónoma de Exploits" (AEG) a una escala y velocidad que hace que las respuestas defensivas dirigidas por humanos queden obsoletas. La transición de la IA como herramienta de diagnóstico a la IA como actor ofensivo cinético representa un cambio fundamental en cómo debemos percibir la seguridad industrial y nacional.

La arquitectura de una intrusión autónoma

Para entender cómo Mythos logró lo que los grupos de piratería patrocinados por estados no han podido hacer durante décadas, uno debe observar las mejoras específicas en la arquitectura reciente del modelo de Anthropic. Mythos está construido sobre un marco de recompensa densa que prioriza las cadenas de lógica recursiva. A diferencia de su predecesor, Claude 3.5, que opera dentro de estrictas barreras éticas que a menudo inhiben el razonamiento complejo de varios pasos en contextos adversos, Mythos fue diseñado con una "flexibilidad de sandbox" destinada a la investigación de alto nivel.

Durante el incidente reportado, se le asignó a Mythos la tarea de identificar vulnerabilidades dentro de una copia simulada pero estructuralmente idéntica de la red de alta seguridad (High-Side) de la NSA. El modelo no solo buscó CVEs (Vulnerabilidades y Exposiciones Comunes) conocidos. En su lugar, participó en un proceso de ejecución especulativa. Al simular la respuesta de hardware de los servidores objetivo, Mythos identificó un novedoso ataque de canal lateral de tiempo dentro de los módulos de cifrado a nivel de hardware. Luego sintetizó un payload personalizado para explotar esta falla microarquitectónica, todo sin intervención humana o conocimiento previo de las versiones específicas del firmware del sistema.

Este nivel de precisión requiere algo más que un alto número de parámetros; requiere una comprensión profunda de las propiedades físicas de la computación. Para aquellos de nosotros en el espacio de la robótica y la automatización industrial, esto es el equivalente digital a un brazo robótico que aprende a abrir una cerradura no viendo la llave, sino sintiendo las vibraciones de los pines a través de un sensor y calculando la fuerza exacta necesaria para manipularlos en tiempo real.

Rompiendo el aislamiento físico (air-gap) mediante el razonamiento simbólico

El aspecto más alarmante del informe sobre Mythos es la capacidad del modelo para sortear las restricciones de los sistemas aislados (air-gapped). En la ciberseguridad tradicional, un air-gap es un aislamiento físico de una red respecto a la internet pública. Sin embargo, Mythos demostró supuestamente la capacidad de utilizar emisiones electromagnéticas de baja frecuencia del hardware objetivo —detectadas a través de sensores IoT conectados dentro del entorno de prueba— para mapear el flujo de datos del sistema aislado.

Por qué fallaron los firewalls tradicionales

El fracaso de las capas defensivas tradicionales de la NSA en este ejercicio se debe a la brecha de latencia. Cuando un humano o un script estándar intenta vulnerar una red, existe un patrón detectable de prueba y error. Los algoritmos defensivos están ajustados para buscar estos patrones. Mythos, sin embargo, opera con un nivel de intencionalidad que imita el tráfico legítimo. Debido a que puede razonar sobre el "porqué" de un protocolo de seguridad, puede encontrar el camino de menor resistencia que no activa una alarma.

En la brecha reportada, Mythos explotó una falla lógica en el sistema de gestión automatizada de parches de los servidores internos de la NSA. Convenció al sistema de que una actualización maliciosa era una corrección de seguridad de alta prioridad de un proveedor de confianza. Debido a que la IA ya había comprometido la autoridad de certificación interna a través de una serie de ataques de inyección de memoria de fuego rápido, el sistema aceptó el código malicioso como auténtico. Todo el proceso, desde el reconocimiento inicial hasta el acceso administrativo total al dominio, tomó, según se informa, menos de seis horas. Para poner eso en perspectiva, a un equipo rojo humano generalmente le tomaría semanas de planificación y ejecución lograr el mismo resultado.

Las consecuencias económicas e industriales

Desde una perspectiva industrial, las implicaciones de Mythos van mucho más allá de los muros de Fort Meade. Si un modelo de IA puede comprometer los sistemas más seguros del gobierno de los Estados Unidos, ¿qué significa eso para nuestra infraestructura crítica? Nuestras redes eléctricas, plantas de tratamiento de agua y centros de fabricación automatizados dependen de Controladores Lógicos Programables (PLC) que a menudo funcionan con código heredado con muchas menos protecciones que un servidor de la NSA.

Estamos ante un futuro en el que la "lista de materiales de software" (SBOM) ya no es suficiente para garantizar la seguridad. Debemos avanzar hacia un modelo de "Defensa Activa", donde los modelos de IA se utilicen para sondear y parchear constantemente nuestros propios sistemas en un bucle recursivo. La viabilidad económica de la automatización industrial actual depende de la fiabilidad de estos sistemas. Si un competidor —o un estado rebelde— despliega un modelo con las capacidades de Mythos contra una línea de ensamblaje robótica, no solo robarían datos; podrían recalibrar físicamente los robots para producir piezas defectuosas o causar un fallo catastrófico del hardware, paralizando efectivamente la cadena de suministro.

¿Es la seguridad de la IA una ilusión?

Existe un debate creciente dentro de la comunidad de ingeniería sobre si deberíamos estar construyendo estos "agentes de propósito general" en absoluto. Si la capacidad para asegurar un sistema no puede seguir el ritmo de la capacidad para explotarlo, estamos entrando en un período de profunda inestabilidad. En ingeniería mecánica, llamamos a esto una "reacción desbocada". En el mundo de la IA, es simplemente la nueva realidad de la carrera armamentista.

El camino hacia el hardware blindado

Es probable que la solución no se encuentre en un mejor software. Hemos llegado al límite de lo que puede hacer la seguridad basada en código. El camino a seguir debe implicar seguridad a nivel de hardware que sea físicamente incapaz de ser alterada por comandos de software. Necesitamos un retorno a los sistemas deterministas para la infraestructura crítica: sistemas donde la lógica esté cableada y no pueda ser reescrita por una IA inteligente, sin importar cuántos parámetros tenga.

A medida que integramos más robótica en nuestra economía global, lo que está en juego es cada vez mayor. El informe sobre la brecha de Mythos debería servir como una llamada de atención para cada CTO y profesional de la seguridad. Ha llegado la era del "adversario automatizado". Ya no nos estamos defendiendo contra hackers con sudaderas con capucha; nos estamos defendiendo contra una fuerza matemática que opera a la velocidad del silicio. La pregunta no es si su sistema puede ser vulnerado, sino qué tan rápido una IA como Mythos encontrará la única falla que usted no sabía que tenía.

Si bien Anthropic y la NSA no han comentado públicamente sobre los detalles de los datos de Mythos, las repercusiones en la industria tecnológica son innegables. Estamos viendo un giro repentino hacia la "IA soberana" y una regulación más agresiva de los modelos de alto cómputo. Pero como sabe cualquier ingeniero, no se pueden regular las leyes de la física o la lógica de un algoritmo una vez que se ha puesto en marcha. La brecha de la NSA no es un incidente aislado; es una vista previa de la próxima década de guerra digital.

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q ¿Qué es Anthropic Mythos y en qué se diferencia de Claude 3.5?
A Mythos es un modelo de IA agéntica experimental desarrollado por Anthropic que se centra en cadenas de lógica recursiva y flexibilidad en entornos sandbox para la investigación de alto nivel. A diferencia de Claude 3.5, que opera bajo estrictas barreras éticas que a menudo inhiben el razonamiento complejo en contextos adversarios, Mythos fue diseñado para identificar y explotar vulnerabilidades de forma autónoma. Este cambio arquitectónico permite al modelo realizar ejecuciones especulativas y razonamientos de varios pasos necesarios para pruebas de penetración y análisis de sistemas sofisticados.
Q ¿Cómo logró el modelo Mythos eludir los sistemas aislados (air-gapped) de la NSA?
A El modelo navegó con éxito las restricciones de los sistemas aislados utilizando razonamiento simbólico para analizar las emisiones electromagnéticas de baja frecuencia del hardware objetivo. Al detectar estas señales a través de sensores conectados en el entorno de prueba, Mythos pudo mapear el flujo de datos del sistema físicamente aislado. Esta capacidad demuestra un cambio desde la intrusión tradicional basada en redes hacia una comprensión más profunda de las propiedades físicas y las firmas microarquitectónicas del hardware informático.
Q ¿Qué métodos técnicos se utilizaron para comprometer la red High-Side de la NSA?
A Mythos utilizó la Generación Autónoma de Exploits para identificar un novedoso ataque de canal lateral de temporización dentro de los módulos de cifrado de hardware. Tras sintetizar una carga útil personalizada para explotar este fallo microarquitectónico, ejecutó una serie de ataques de inyección de memoria para comprometer la autoridad de certificación interna. Esto permitió a la IA engañar al sistema automatizado de gestión de parches para que aceptara actualizaciones maliciosas como correcciones de seguridad legítimas y de alta prioridad, otorgando al modelo acceso administrativo completo en menos de seis horas.
Q ¿Cuáles son las preocupaciones de seguridad industrial más amplias que plantea el informe Mythos?
A El ejercicio destaca riesgos significativos para la infraestructura crítica, como las redes eléctricas y los centros de fabricación automatizados que dependen de controladores lógicos programables (PLC). Dado que muchos sistemas industriales funcionan con código heredado con protecciones mínimas, son altamente susceptibles a modelos de IA autónomos. Dichos ataques podrían derivar en algo más que brechas de datos; podrían provocar la recalibración física de robots industriales, causando una producción defectuosa o fallos catastróficos en el hardware.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!