Warum das Pentagon vor den Halluzinationen von Grok warnt

In der risikoreichen Arena der nationalen Verteidigung gibt es keinen Spielraum für Fehler. Als der scheidende Chief Digital and Artificial Intelligence Officer (CDAO) des Pentagons, Craig Martell, auf der kürzlich stattgefundenen AI Expo for National Defense das Wort ergriff, bot er nicht bloß eine theoretische Kritik an Large Language Models (LLMs). Stattdessen präsentierte er ein krasses, beinahe surreales Beispiel dafür, wie Elon Musks Grok-Chatbot – entwickelt von xAI – eine komplette geopolitische Katastrophe halluzinierte. Die KI behauptete, die Vereinigten Staaten hätten Tausende von Raketen auf den Iran abgefeuert; ein Ereignis, das nie stattgefunden hatte, aber mit der Überzeugung einer historischen Tatsache präsentiert wurde.

Als Maschinenbauingenieur und Journalist, der sich auf die Schnittstelle zwischen Software und physischen Systemen konzentriert, halte ich diesen Vorfall für mehr als nur einen amüsanten Fehler. Er ist ein fundamentaler Beweis für die technische Unvereinbarkeit zwischen aktuellen generativen KI-Architekturen und den deterministischen Anforderungen der Industrie- und Militärinfrastruktur. Damit eine Maschine in einer Befehls- und Kontrollfunktion nützlich sein kann, muss sie in der physischen Realität verankert sein. Groks Versagen deutet darauf hin, dass wir von diesem Ziel weiter entfernt sind, als der Marketing-Hype vermuten lässt.

Die Anatomie einer digitalen Halluzination

Um zu verstehen, warum Grok einen Raketenangriff erfand, muss man die zugrunde liegende Mechanik von Transformer-basierten Modellen betrachten. Diese Systeme besitzen kein Weltmodell; sie verstehen das Konzept einer „Rakete“, einer „Grenze“ oder des „Pentagons“ nicht. Stattdessen sind sie stochastische Papageien – komplexe statistische Maschinen, die darauf ausgelegt sind, den wahrscheinlichsten nächsten Token in einer Sequenz auf Basis eines riesigen Korpus an Trainingsdaten vorherzusagen.

Im Fall von Grok verfügt das Modell über eine Besonderheit: den Echtzeitzugriff auf den Datenstrom von X (ehemals Twitter). Während dies als Möglichkeit vermarktet wird, die KI auf dem neuesten Stand zu halten, führt es zu einer massiven technischen Schwachstelle. Wenn der Datenstrom mit Fehlinformationen, von Bots gesteuerten Narrativen oder auch nur spekulativem Gerede hoher Geschwindigkeit verunreinigt ist, verschieben sich die Gewichtungen des LLM zugunsten dieser Token. Martells Experiment verdeutlichte, dass Grok fragmentierte, möglicherweise spekulative oder satirische Beiträge nahm und sie zu einem kohärenten, autoritär klingenden Narrativ über einen Krieg zusammenfügte. Dies ist kein Logikfehler, denn es gibt in einem LLM kein Logikmodul; es ist ein Fehler der Daten-Pipeline und der inhärenten „Kreativität“, die für die Generierung natürlicher Sprache erforderlich ist.

Für das Pentagon ist diese „Halluzination“ das ultimative Warnsignal. Im Kontext der Mission des CDAO ist eine KI, die eine zu 95 % genaue Zusammenfassung eines Logistikberichts liefert, nutzlos, wenn die restlichen 5 % die imaginäre Bewegung von 70.000 Raketen beinhalten. In der Technik nennen wir das einen Mangel an Zuverlässigkeit. Wenn eine Brücke zu 95 % strukturell einwandfrei ist, ist sie ein Versagen.

Die deterministische Anforderung militärischer Hardware

Wenn wir über Robotik und automatisierte Systeme in einem industriellen oder militärischen Umfeld sprechen, reden wir über deterministische Systeme. Wenn ich einen Roboterarm in einem Tesla-Werk so programmiere, dass er einen Türrahmen schweißt, erwarte ich eine wiederholbare, präzise Bewegung, die von PID-Reglern (Proportional-Integral-Derivative) gesteuert wird. Der Input liefert einen vorhersehbaren Output. Die Bewegung wird durch die Gesetze der Physik und die Beschränkungen des Softwarecodes begrenzt.

Die Integration generativer KI in ein Raketenabwehrsystem oder eine taktische Datenverbindung erfordert ein Maß an Verifizierung und Validierung (V&V), das die aktuelle LLM-Technologie nicht erfüllen kann. Uns fehlen die mathematischen Werkzeuge, um zu garantieren, dass ein Modell mit Milliarden von Parametern nicht unter einer spezifischen, unvorhergesehenen Kombination von Token einen „Feuer“-Befehl halluziniert. Deshalb konzentriert sich das Pentagon trotz des Hypes beim Einsatz von KI weiterhin auf traditionellere Machine-Learning-Modelle – Computer Vision zur Zielidentifikation und vorausschauende Wartung (Predictive Maintenance) für Flugzeuge –, bei denen die Ergebnisse begrenzt und überprüfbar sind.

Die Gefahren der Echtzeit-Datenintegration

Elon Musk hat häufig die „rebellische“ Natur von Grok und dessen Zugang zu Echtzeitinformationen als Wettbewerbsvorteil gegenüber ChatGPT oder Claude angepriesen. Aus der Sicht des Technikjournalismus ist diese Echtzeit-Verbindung jedoch ein Haftungsrisiko für Entscheidungen mit hohem Einsatz. Die Geschwindigkeit von Informationen in sozialen Medien übertrifft oft deren Genauigkeit. Wenn Grok ein „Trend“-Thema verarbeitet, bei dem es sich tatsächlich um eine koordinierte Desinformationskampagne handelt, fehlt ihm der erkenntnistheoretische Rahmen, um die falschen Daten zu verwerfen.

Hat generative KI einen Platz in der Verteidigung?

Die Frage ist also: Gibt es eine Rolle für LLMs in der Zukunft der Kriegsführung oder der Schwerindustrie? Martell und andere führende Köpfe im Verteidigungsbereich lehnen die Technologie nicht völlig ab, plädieren aber für einen massiven Wandel in der Art und Weise, wie diese Modelle gebaut und genutzt werden. Dies beinhaltet eine Technik namens Retrieval-Augmented Generation (RAG).

In einem RAG-basierten System ist es dem LLM nicht gestattet, Fakten aus seinen internen Gewichtungen zu generieren. Stattdessen wird es als Schnittstelle für eine vertrauenswürdige Datenbank genutzt. Wenn ein General nach Raketenzahlen fragt, fragt die KI eine sichere, verifizierte interne Datenbank ab und nutzt ihre Sprachfähigkeiten nur dazu, diese Daten zusammenzufassen. Dies „erdet“ die KI in der Realität. Doch selbst bei RAG bleibt das Risiko der „semantischen Drift“ – bei der die KI die von ihr abgerufenen Daten falsch interpretiert – ein erhebliches Hindernis für Ingenieure.

Darüber hinaus ist der „Automatisierungs-Bias“ ein psychologischer Faktor, den das Pentagon ernst nimmt. Wenn ein System wie Grok in ein Dashboard integriert wird, könnten sich menschliche Bediener zu sehr auf dessen Zusammenfassungen verlassen. Wenn die KI einen Raketenstart halluzinieren würde und ein übermüdeter Offizier dies auch nur für sechzig Sekunden glauben würde, könnte die daraus resultierende Ereigniskette unumkehrbar sein. Deshalb betonen die „Responsible AI“-Richtlinien des Pentagons Systeme mit „Human-in-the-loop“ oder „Human-on-the-loop“, bei denen die KI Vorschläge macht, anstatt Befehle auszuführen.

Die wirtschaftlichen und strategischen Folgen

Aus industrieller Sicht ist die öffentliche Distanzierung des Pentagons von der Zuverlässigkeit à la Grok ein ökonomisches Signal an den breiteren KI-Markt. Wenn der weltweit größte Technologieabnehmer – das US-Verteidigungsministerium – generativer KI bei missionskritischen Aufgaben nicht vertrauen kann, deutet dies darauf hin, dass der kommerzielle Sektor genauso vorsichtig sein sollte. Branchen wie die Luft- und Raumfahrt, die Kernenergie und die medizinische Robotik werden wahrscheinlich dem Beispiel des Pentagons folgen und spezialisierte, kleinere und besser überprüfbare Modelle einer „allgemeinen“ KI vorziehen, die Kriege halluziniert.

Elon Musks xAI strebt derzeit massive Bewertungen auf Basis des Versprechens der überlegenen Intelligenz von Grok an. Doch Intelligenz ohne Genauigkeit ist ein Haftungsrisiko. Damit Grok über den Status eines Kuriosums für X Premium-Abonnenten hinaus zu einem Werkzeug für die von mir behandelte „industrielle Schnittstelle“ werden kann, muss es grundlegend überarbeitet werden. Es benötigt ein „Weltmodell“, das physikalische Kausalität versteht, nicht nur ein „Sprachmodell“, das Worthäufigkeiten versteht.

Während Martell seine Amtszeit beim CDAO beendet, dient seine Warnung als notwendiger Realitätscheck für die KI-Industrie. Wir bauen derzeit schnellere und artikuliertere Motoren, aber wir haben noch kein zuverlässiges Lenkrad gebaut. Bis wir das Halluzinationsproblem auf grundlegender architektonischer Ebene lösen können, wird die leistungsfähigste KI der Welt ein riskanter Halluzinator bleiben, der in der Lage ist, 70.000 Raketen aus dem Nichts zu erfinden.

Warum das Pentagon vor den Halluzinationen von Grok warnt

Die Anatomie einer digitalen Halluzination

Die deterministische Anforderung militärischer Hardware

Die Gefahren der Echtzeit-Datenintegration

Hat generative KI einen Platz in der Verteidigung?

Die wirtschaftlichen und strategischen Folgen

Noah Brooks

Leserfragen beantwortet

Haben Sie eine Frage zu diesem Artikel?

Kommentare