Por qué el Pentágono advierte sobre las alucinaciones de Grok

En el ámbito de alta presión de la defensa nacional, el margen de error es inexistente. Cuando el saliente Director Digital y de Inteligencia Artificial (CDAO) del Pentágono, Craig Martell, subió al escenario en la reciente AI Expo for National Defense, no se limitó a ofrecer una crítica teórica de los Modelos de Lenguaje Extensos (LLM, por sus siglas en inglés). En cambio, presentó un ejemplo crudo y casi surrealista de cómo el chatbot Grok de Elon Musk —desarrollado por xAI— alucinó toda una catástrofe geopolítica. La IA afirmó que Estados Unidos había lanzado miles de misiles contra Irán, un evento que nunca ocurrió, pero que fue presentado con la seguridad de un hecho histórico.

Como ingeniero mecánico y periodista enfocado en el puente entre el software y los sistemas físicos, considero que este incidente es más que un simple error divertido. Es una demostración fundamental de la incompatibilidad técnica entre las arquitecturas actuales de IA generativa y los requisitos deterministas de la infraestructura industrial y militar. Para que una máquina sea útil en una capacidad de mando y control, debe estar fundamentada en la realidad física. El fallo de Grok sugiere que estamos más lejos de ese objetivo de lo que el bombo publicitario sugiere.

La anatomía de una alucinación digital

Para entender por qué Grok fabricó un ataque con misiles, uno debe observar la mecánica subyacente de los modelos basados en transformers. Estos sistemas no poseen un modelo del mundo; no comprenden el concepto de "misil", "frontera" o "Pentágono". En su lugar, son loros estocásticos: motores estadísticos complejos diseñados para predecir el siguiente token más probable en una secuencia basada en un corpus masivo de datos de entrenamiento.

En el caso de Grok, el modelo tiene una característica única: acceso en tiempo real al flujo de datos de X (anteriormente Twitter). Aunque esto se comercializa como una forma de mantener la IA actualizada, introduce una vulnerabilidad de ingeniería masiva. Si el flujo de datos está contaminado con desinformación, narrativas impulsadas por bots o incluso solo chismes especulativos de alta velocidad, los pesos del LLM cambiarán para favorecer esos tokens. El experimento de Martell destacó que Grok tomó publicaciones fragmentadas, quizás especulativas o satíricas, y las sintetizó en una narrativa de guerra coherente y con tono autoritario. Esto no es un fallo de lógica, porque no hay un módulo de lógica en un LLM; es un fallo de la tubería de datos y de la "creatividad" inherente requerida para la generación de lenguaje natural.

Para el Pentágono, esta "alucinación" es la señal de alerta definitiva. En el contexto de la misión del CDAO, una IA que proporciona un resumen con un 95% de precisión de un informe logístico es inútil si el 5% restante implica el movimiento imaginario de 70.000 misiles. En ingeniería, llamamos a esto falta de fiabilidad. Si un puente es estructuralmente sólido en un 95%, es un fallo.

El requisito determinista del hardware militar

Cuando discutimos sobre robótica y sistemas automatizados en un entorno industrial o militar, estamos hablando de sistemas deterministas. Si programo un brazo robótico en una fábrica de Tesla para soldar el marco de una puerta, espero un movimiento preciso y repetible regido por controladores PID (Proporcional-Integral-Derivativo). La entrada produce una salida predecible. El movimiento está limitado por las leyes de la física y las restricciones del código de software.

Integrar IA generativa en un sistema de defensa antimisiles o en un enlace de datos tácticos requiere un nivel de verificación y validación (V&V) que la tecnología actual de LLM no puede cumplir. Carecemos de las herramientas matemáticas para garantizar que un modelo con miles de millones de parámetros no alucine una orden de "fuego" bajo una combinación específica e imprevista de tokens. Es por esto que, a pesar del entusiasmo, el despliegue real de IA del Pentágono sigue centrado en modelos de aprendizaje automático más tradicionales —visión por computadora para la identificación de objetivos y mantenimiento predictivo para aeronaves— donde las salidas están limitadas y son verificables.

Los peligros de la integración de datos en tiempo real

Elon Musk ha promocionado frecuentemente la naturaleza "rebelde" de Grok y su acceso a información en tiempo real como su ventaja competitiva sobre ChatGPT o Claude. Sin embargo, desde una perspectiva de periodismo técnico, este enlace en tiempo real es una responsabilidad para la toma de decisiones de alto riesgo. La velocidad de la información en las redes sociales a menudo supera su precisión. Cuando Grok procesa un tema "tendencia" que en realidad es una campaña de desinformación coordinada, carece del marco epistémico para descartar los datos falsos.

¿Tiene la IA generativa un lugar en la defensa?

La pregunta entonces se convierte en: ¿existe algún papel para los LLM en el futuro de la guerra o la industria pesada? Martell y otros líderes de defensa no descartan la tecnología por completo, pero abogan por un cambio masivo en cómo se construyen y utilizan estos modelos. Esto implica una técnica conocida como Generación Aumentada por Recuperación (RAG, por sus siglas en inglés).

En un sistema basado en RAG, no se permite que el LLM genere hechos a partir de sus pesos internos. En su lugar, se utiliza como una interfaz para una base de datos de confianza. Si un general pregunta sobre el recuento de misiles, la IA consulta una base de datos interna segura y verificada y utiliza sus capacidades lingüísticas solo para resumir esos datos. Esto "ancla" la IA en la realidad. Sin embargo, incluso con RAG, el riesgo de "deriva semántica" —donde la IA malinterpreta los datos que recupera— sigue siendo un obstáculo importante para los ingenieros.

Además, el "sesgo de automatización" es un factor psicológico que el Pentágono toma en serio. Si un sistema como Grok se integra en un tablero de control, los operadores humanos pueden volverse demasiado dependientes de sus resúmenes. Si la IA alucinara un lanzamiento de misiles y un oficial cansado lo creyera durante apenas sesenta segundos, la cadena de eventos resultante podría ser irreversible. Es por esto que las directrices de "IA Responsable" del Pentágono enfatizan los sistemas con el humano en el ciclo (human-in-the-loop) o el humano supervisando el ciclo (human-on-the-loop), donde la IA proporciona sugerencias en lugar de ejecutar comandos.

Las consecuencias económicas y estratégicas

Desde una perspectiva industrial, el distanciamiento público del Pentágono respecto a la fiabilidad de herramientas como Grok es una señal económica para el mercado más amplio de la IA. Si el mayor comprador de tecnología del mundo —el Departamento de Defensa de EE. UU.— no puede confiar en la IA generativa para tareas críticas de misión, sugiere que el sector comercial debería ser igualmente cauteloso. Es probable que industrias como la aeroespacial, la energía nuclear y la robótica médica sigan el ejemplo del Pentágono, favoreciendo modelos especializados, más pequeños y más verificables sobre la IA "general" que alucina guerras.

La empresa xAI de Elon Musk busca actualmente valoraciones masivas basadas en la promesa de la inteligencia superior de Grok. Sin embargo, la inteligencia sin precisión es una responsabilidad. Para que Grok deje de ser una novedad para los suscriptores de X Premium y se convierta en una herramienta para la "interfaz industrial" que cubro, debe someterse a una reingeniería fundamental. Necesita un "modelo del mundo" que comprenda la causalidad física, no solo un "modelo de lenguaje" que comprenda la frecuencia de las palabras.

A medida que Martell concluye su mandato en el CDAO, su advertencia sirve como una necesaria dosis de realidad para la industria de la IA. Actualmente estamos construyendo motores más rápidos y articulados, pero aún tenemos que construir un volante fiable. Hasta que podamos resolver el problema de la alucinación a un nivel arquitectónico fundamental, la IA más potente del mundo seguirá siendo una alucinadora arriesgada, capaz de inventar 70.000 misiles de la nada.

Por qué el Pentágono advierte sobre el problema de alucinaciones de Grok

La anatomía de una alucinación digital

El requisito determinista del hardware militar

Los peligros de la integración de datos en tiempo real

¿Tiene la IA generativa un lugar en la defensa?

Las consecuencias económicas y estratégicas

Noah Brooks

Readers Questions Answered

Have a question about this article?

Comments