Vulneran la IA de alta seguridad Mythos de Anthropic

La seguridad en la era de la inteligencia artificial generativa a menudo se discute en términos de alineación y salvaguardas, pero la reciente vulneración del modelo restringido Mythos de Anthropic desplaza el foco hacia una vulnerabilidad industrial más tradicional, y quizás más peligrosa: la cadena de suministro de terceros. Han surgido informes que detallan cómo un grupo privado en línea logró acceder a Claude Mythos, un modelo tan especializado en ciberseguridad que Anthropic lo consideraba demasiado peligroso para su lanzamiento público general. Este incidente, que no ocurrió a través de un ataque directo a la infraestructura central de Anthropic, sino mediante el entorno de un proveedor, pone de relieve una crisis creciente en la forma en que las herramientas de IA de alto riesgo se despliegan y protegen dentro de los sectores financiero y tecnológico a nivel mundial.

La arquitectura de Mythos: Por qué este modelo fue puesto en cuarentena

Para entender la gravedad de la vulneración, primero hay que observar lo que representa Mythos en el panorama actual de la IA. A diferencia de las iteraciones estándar de Claude con las que interactúa el público, Mythos fue diseñado específicamente para la seguridad a nivel empresarial y para simulaciones de ciberseguridad ofensiva y defensiva. En términos mecánicos, si un modelo de lenguaje (LLM) estándar es una multiherramienta versátil, Mythos es un kit de cerrajero diseñado con precisión. Anthropic ha clasificado el modelo como uno que plantea «riesgos de ciberseguridad sin precedentes», específicamente porque sus capacidades para identificar vulnerabilidades de software y generar código explotable superan con creces las restricciones impuestas a los modelos de consumo.

La decisión de la compañía de mantener a Mythos en un estado de cuarentena controlada fue una respuesta al potencial del modelo para automatizar el descubrimiento de vulnerabilidades de día cero a una escala que los equipos de seguridad humanos no podrían igualar. Por diseño, Mythos estaba destinado a ayudar a las principales instituciones financieras y firmas de ciberseguridad a fortalecer sus sistemas. Sin embargo, las mismas características que lo convierten en un activo para la defensa (la comprensión profunda de la arquitectura del sistema y la capacidad de simular vectores de ataque complejos) lo convierten en un riesgo catastrófico si cae en manos de actores ajenos a un entorno regulado.

Análisis del vector de vulneración

Las investigaciones iniciales sobre el incidente apuntan a un entorno de proveedor externo como el principal punto de fallo. Este es un problema clásico de seguridad industrial. Anthropic mantiene protocolos internos rigurosos, pero para prestar servicios a su lista de clientes de élite, debe integrar sus modelos en los flujos de trabajo de contratistas externos y proveedores de infraestructura. Según los informes, los miembros de un grupo no autorizado, que operaba en gran medida a través de un canal privado de Discord, aprovecharon las vulnerabilidades en uno de estos entornos intermedios para establecer una conexión persistente a la vista previa de Mythos.

Desde una perspectiva de ingeniería, esto refleja un fallo en la «seguridad perimetral». Cuando un modelo se aloja o se prueba en un entorno aislado (sandbox) de terceros, la seguridad de dicho modelo ya no es responsabilidad exclusiva del creador; es tan fuerte como lo sea el sistema de gestión de acceso del proveedor. En este caso, el grupo no autorizado supuestamente utilizó varias estrategias para eludir los protocolos de autenticación, obteniendo finalmente acceso suficiente para usar el modelo regularmente para sus propios fines. Anthropic ha declarado que actualmente no hay evidencia de que sus propios servidores internos se vieran comprometidos, lo que sugiere que la filtración fue un fallo en la cadena de suministro y no en el alojamiento central del modelo.

El Proyecto Glasswing y la paradoja del despliegue industrial

La vulneración es particularmente sensible dada la naturaleza de alto perfil de las entidades involucradas en la fase de prueba del modelo. Conocida como Proyecto Glasswing, la iniciativa buscaba desplegar Mythos a un grupo selecto de las instituciones financieras y tecnológicas más poderosas del mundo. La lista incluye a Amazon, Apple, JP Morgan Chase, Goldman Sachs, Citigroup, Bank of America y Morgan Stanley. Esto no fue solo una prueba de software; fue un esfuerzo estratégico, alentado por el Departamento del Tesoro de EE. UU., para utilizar la IA como un mecanismo de defensa estructural para la red financiera global.

En abril, el Secretario del Tesoro, Scott Bessent, se habría reunido con altos banqueros para abogar por el uso de Mythos en la detección de vulnerabilidades sistémicas dentro del sector bancario. La paradoja aquí es clara: cuanto más crítica es la utilidad de la herramienta, más distribuidos deben estar sus puntos de acceso. Al involucrar a múltiples bancos globales y sus respectivas infraestructuras de TI, la «superficie de ataque» para Mythos se expandió exponencialmente. Cada banco, y cada subcontratista que apoyaba a esos bancos, representaba una posible puerta de entrada para los hackers. La brecha a través de un contratista externo es un crudo recordatorio de que en el mundo de la automatización industrial y la IA, la periferia suele ser más vulnerable que el centro.

¿Cómo afecta el acceso no autorizado a la seguridad de la IA?

Cuando se accede a un modelo como Mythos fuera de su entorno previsto, la principal preocupación es la eliminación de la supervisión y la telemetría. Dentro del Proyecto Glasswing, Anthropic podría, en teoría, monitorear cómo se estaba utilizando el modelo, asegurándose de que solo se aplicara a tareas defensivas. En manos de un grupo no autorizado en un foro privado, estos monitores son inexistentes. Ya no existe un «interruptor de apagado» o una junta de revisión para evitar que el modelo sea encargado de desarrollar malware o identificar exploits en la infraestructura pública.

Además, la vulneración permite a los actores malintencionados realizar «pruebas adversarias» a su antojo. Pueden examinar y probar el modelo para encontrar sus propias debilidades internas, lo que podría conducir a técnicas que podrían eludir los filtros de seguridad de otros modelos más públicos. Esto crea un ciclo de retroalimentación donde un modelo de alta seguridad vulnerado se convierte en un campo de entrenamiento para derrotar la seguridad de la IA en toda la industria. Para una empresa como Anthropic, que ha construido su marca sobre el concepto de «IA constitucional», esta vulneración es más que un fallo técnico; es un desafío a su filosofía fundamental de despliegue seguro.

La realidad económica de los riesgos de terceros

Desde un punto de vista económico, la vulneración de Mythos subraya los costos crecientes de la seguridad en la IA. A medida que empresas como Anthropic, OpenAI y Google DeepMind desarrollan herramientas cada vez más potentes, el costo de asegurar la cadena de suministro probablemente comenzará a rivalizar con el costo de entrenar a los propios modelos. Estamos viendo el surgimiento de un nuevo sector en la economía tecnológica: el depósito en garantía y la entrega segura de IA. Si no se puede confiar en que los proveedores externos manejen estos modelos, los desarrolladores de IA podrían verse obligados a construir sus propios stacks de hardware y redes propietarios de principio a fin para prestar sus servicios, lo que aumentaría significativamente las barreras de entrada para la IA empresarial.

La dependencia de contratistas externos para el etiquetado de datos, el mantenimiento de servidores y el despliegue perimetral es actualmente el estándar de la industria porque es eficiente. Sin embargo, como muestra este incidente, la eficiencia es frecuentemente enemiga de la seguridad. Para los gigantes financieros que prueban Mythos, la vulneración puede llevar a un enfriamiento del interés en las versiones «de vista previa» de tecnología sensible. Si una herramienta destinada a proteger un banco puede ser utilizada como arma debido a la supervisión de un contratista, el cálculo de riesgo-recompensa cambia para los altos ejecutivos.

¿Pueden los modelos de IA ser realmente contenidos?

La vulneración de Claude Mythos plantea una pregunta difícil: ¿es sostenible el concepto de un modelo «demasiado peligroso para ser lanzado»? La historia en la industria del software sugiere que una vez que el código existe, eventualmente se filtra. Ya sea a través de ingeniería social, vulnerabilidades en la cadena de suministro o denunciantes internos, la entropía de la información es una fuerza poderosa. Si un modelo es verdaderamente demasiado peligroso para el público, el acto de compartirlo con cualquier socio externo (incluso un banco de confianza) introduce un riesgo no nulo de exposición total.

A medida que Anthropic continúa su investigación, la industria estará atenta para ver si la compañía retira su modelo de prueba distribuido en favor de un enfoque más centralizado y «solo en las instalaciones». Por ahora, el incidente de Mythos sirve como una historia de advertencia también para los sectores de la robótica y la automatización. A medida que integramos IA sofisticada en sistemas industriales físicos, la seguridad de la conexión es tan vital como la lógica del motor. Un modelo comprometido en un centro de datos es un desastre; un modelo comprometido que controla una red eléctrica o una línea de fabricación es una catástrofe. El puente entre el hardware complejo y el mercado global es tan resistente como el eslabón más débil de la cadena de suministro.

La IA de alta seguridad Mythos de Anthropic, vulnerada a través de la cadena de suministro

La arquitectura de Mythos: Por qué este modelo fue puesto en cuarentena

Análisis del vector de vulneración

El Proyecto Glasswing y la paradoja del despliegue industrial

¿Cómo afecta el acceso no autorizado a la seguridad de la IA?

La realidad económica de los riesgos de terceros

¿Pueden los modelos de IA ser realmente contenidos?

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments