La guerra alucinada de Grok y el miedo del Pentágono a la IA

Craig Martell, Director Digital y de Inteligencia Artificial (CDAO, por sus siglas en inglés) del Departamento de Defensa, ha expresado abiertamente su escepticismo respecto al despliegue de LLM (modelos de lenguaje extensos) en contextos militares sensibles. El incidente relacionado con Grok —que sintetizó una serie de bromas y tuits especulativos en un resumen de noticias con apariencia fáctica— pone de relieve un fenómeno técnico conocido como el "bucle de alucinación". Para un ingeniero, esto no es solo un error técnico; es una falla fundamental en la arquitectura de los modelos actuales basados en transformers que los hace intrínsecamente incompatibles con la "cadena de eliminación" (kill chain) de la guerra moderna.

La arquitectura de un engaño digital

Para entender por qué Grok "lanzó" miles de misiles en el espacio digital, hay que observar la mecánica de su ingesta de datos en tiempo real. A diferencia de modelos como GPT-4, que se entrenan con conjuntos de datos estáticos con actualizaciones periódicas, Grok está diseñado para utilizar un flujo de datos en vivo proveniente de X. Esto se comercializa como una característica: la capacidad de proporcionar información en "tiempo real". Sin embargo, desde la perspectiva de la ingeniería mecánica, esto crea un bucle de retroalimentación sin amortiguador. Cuando los usuarios de X comenzaron a tuitear bromas o informes malinterpretados durante un período de alta tensión geopolítica, los algoritmos de Grok identificaron un pico en la frecuencia de palabras clave. Luego, sintetizó estos tokens en una estructura narrativa sin una capa de verificación secundaria frente a datos de sensores fidedignos.

Por qué el Pentágono rechaza los sistemas no deterministas

El núcleo de la reticencia del Pentágono radica en la distinción entre sistemas deterministas y no deterministas. En la automatización industrial y la robótica tradicionales, un sistema es determinista: ante una entrada específica, siempre producirá la misma salida. Si un radar detecta una firma térmica con una velocidad X y una trayectoria Y, el protocolo de respuesta es fijo. Los LLM son no deterministas. El mismo comando (prompt) puede arrojar resultados diferentes según el ajuste de "temperatura" del modelo o ligeras variaciones en el flujo de entrada.

Para Craig Martell y el CDAO, el incidente de Grok es la prueba de que los LLM carecen de la "verdad fundamental" necesaria para el mando y control. Durante sus recientes discursos públicos, Martell ha enfatizado que el Pentágono no busca una IA "creativa"; busca una IA "fiable". La alucinación de Grok demostró que cuando a una IA se le da el poder de sintetizar información, puede crear inadvertidamente un ciclo de escalada. En un futuro hipotético donde un sistema así esté integrado en un panel de alerta temprana, un titular fabricado podría desencadenar una postura defensiva que un adversario interprete como un movimiento ofensivo, lo que conduciría a un lanzamiento real.

El riesgo económico e industrial de la autonomía de la IA

Más allá de la amenaza inmediata de un conflicto cinético, existe una preocupación industrial más amplia sobre la naturaleza "automáticamente escalatoria" de la IA. En la fabricación y la logística de la cadena de suministro, observamos un impulso para integrar los LLM en las matrices de toma de decisiones. Sin embargo, el incidente de Grok sirve como advertencia también para el sector privado. Si una IA que gestiona una red logística global malinterpreta un "aumento" en el ruido de las redes sociales sobre una huelga portuaria, podría redirigir miles de contenedores, causando una fricción económica masiva basada en una alucinación.

Las especificaciones técnicas requeridas para la IA de grado militar implican un riguroso "red-teaming" y la implementación de "barreras de seguridad" (guardrails) que a menudo chocan con los ciclos de lanzamiento rápidos e iterativos de Silicon Valley. El enfoque de Musk con Grok —lanzar versiones "beta" al público y dejar que interactúen con datos en vivo no verificados— es la antítesis del marco de "IA Responsable" del Departamento de Defensa. Este marco exige que cada acción impulsada por IA sea trazable, auditable y, lo más importante, que esté bajo el control de un operador humano que tenga acceso a las fuentes de datos subyacentes.

¿Podemos construir un LLM "anclado"?

La pregunta persiste: ¿es posible solucionar el problema de la alucinación para aplicaciones de defensa? Los ingenieros están experimentando actualmente con la "Generación Aumentada por Recuperación" (RAG). En una configuración RAG, al LLM no se le permite simplemente adivinar el siguiente token basándose en su entrenamiento; debe consultar primero una base de datos privada y confiable —como una red de sensores militares— y utilizar esos datos para anclar su respuesta. Si Grok hubiera utilizado RAG anclado a datos reales del Comando de Defensa Aeroespacial de Norteamérica (NORAD), habría visto que no había misiles en el aire y el titular nunca se habría generado.

Sin embargo, RAG no es una solución mágica. La latencia que implica consultar bases de datos masivas puede ralentizar el tiempo de respuesta de una IA, anulando la ventaja de velocidad que hace que la IA sea atractiva para la defensa en primer lugar. Además, la complejidad de integrar formatos de datos dispares —desde imágenes térmicas hasta ráfagas de radio cifradas— en un formato que un LLM pueda entender es un desafío de ingeniería monumental. Estamos a años, si no décadas, de que un LLM sea capaz de fusionar datos multidominio de manera fiable sin el riesgo de una interpretación "creativa".

Las consecuencias geopolíticas de la realidad sintética

La preocupación del Pentágono no es solo sobre lo que hace *nuestra* IA; es sobre lo que podría hacer la IA de un adversario. Si un servicio de inteligencia extranjero percibe que los responsables de la toma de decisiones occidentales comienzan a confiar en resúmenes sintetizados por IA, pueden participar en el "envenenamiento de datos". Al inundar las redes sociales o las redes no clasificadas con palabras clave y narrativas específicas, pueden efectivamente "programar" un LLM como Grok desde el exterior, induciendo una alucinación que sirva a sus intereses estratégicos. Esta es una nueva forma de guerra electrónica donde el objetivo no es el hardware, sino la lógica del propio modelo.

El incidente de Grok-Irán fue una versión de bajo riesgo de este escenario. No se dispararon misiles, pero el "choque" en el ecosistema de información fue real. Forzó un debate público sobre los peligros de la IA "sin filtros". Para el Pentágono, fue una validación de su enfoque cauteloso, quizás incluso "lento", para la adopción de la IA. Mientras Silicon Valley se mueve rápido y rompe cosas, el ejército sabe que en su mundo, "romper cosas" suele implicar explosivos de alta potencia y consecuencias irreversibles.

En última instancia, el papel de la IA en el ejército probablemente se limitará a tareas administrativas (back-office) —logística, programación de mantenimiento y clasificación de datos— en el futuro previsible. La "cadena de eliminación" seguirá siendo obstinadamente humana y determinista. Como Noah Brooks, veo esto como una salvaguarda necesaria. La complejidad mecánica de la guerra es demasiado alta, y el costo de una "alucinación" demasiado elevado, como para permitir que un loro estocástico tenga el dedo sobre el botón. El incidente de Grok fue una llamada de atención; la próxima vez que un chatbot alucine una guerra, es posible que no tengamos la suerte de descubrir que solo era un fallo en una aplicación.

La guerra alucinada de Grok resalta los temores más profundos del Pentágono sobre la IA

La arquitectura de un engaño digital

Por qué el Pentágono rechaza los sistemas no deterministas

El riesgo económico e industrial de la autonomía de la IA

¿Podemos construir un LLM "anclado"?

Las consecuencias geopolíticas de la realidad sintética

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments