Warum das Pentagon vor den Halluzinationen von Grok warnt

Grok
Why the Pentagon is Warning Against Grok’s Hallucination Problem
KI-Chef Craig Martell vom Pentagon nutzt eine erschreckende Halluzination von Grok, um auf die kritischen Zuverlässigkeitsmängel von LLMs in militärischen Kontexten hinzuweisen.

In der risikoreichen Arena der nationalen Verteidigung gibt es keinen Spielraum für Fehler. Als der scheidende Chief Digital and Artificial Intelligence Officer (CDAO) des Pentagons, Craig Martell, auf der kürzlich stattgefundenen AI Expo for National Defense das Wort ergriff, bot er nicht bloß eine theoretische Kritik an Large Language Models (LLMs). Stattdessen präsentierte er ein krasses, beinahe surreales Beispiel dafür, wie Elon Musks Grok-Chatbot – entwickelt von xAI – eine komplette geopolitische Katastrophe halluzinierte. Die KI behauptete, die Vereinigten Staaten hätten Tausende von Raketen auf den Iran abgefeuert; ein Ereignis, das nie stattgefunden hatte, aber mit der Überzeugung einer historischen Tatsache präsentiert wurde.

Als Maschinenbauingenieur und Journalist, der sich auf die Schnittstelle zwischen Software und physischen Systemen konzentriert, halte ich diesen Vorfall für mehr als nur einen amüsanten Fehler. Er ist ein fundamentaler Beweis für die technische Unvereinbarkeit zwischen aktuellen generativen KI-Architekturen und den deterministischen Anforderungen der Industrie- und Militärinfrastruktur. Damit eine Maschine in einer Befehls- und Kontrollfunktion nützlich sein kann, muss sie in der physischen Realität verankert sein. Groks Versagen deutet darauf hin, dass wir von diesem Ziel weiter entfernt sind, als der Marketing-Hype vermuten lässt.

Die Anatomie einer digitalen Halluzination

Um zu verstehen, warum Grok einen Raketenangriff erfand, muss man die zugrunde liegende Mechanik von Transformer-basierten Modellen betrachten. Diese Systeme besitzen kein Weltmodell; sie verstehen das Konzept einer „Rakete“, einer „Grenze“ oder des „Pentagons“ nicht. Stattdessen sind sie stochastische Papageien – komplexe statistische Maschinen, die darauf ausgelegt sind, den wahrscheinlichsten nächsten Token in einer Sequenz auf Basis eines riesigen Korpus an Trainingsdaten vorherzusagen.

Im Fall von Grok verfügt das Modell über eine Besonderheit: den Echtzeitzugriff auf den Datenstrom von X (ehemals Twitter). Während dies als Möglichkeit vermarktet wird, die KI auf dem neuesten Stand zu halten, führt es zu einer massiven technischen Schwachstelle. Wenn der Datenstrom mit Fehlinformationen, von Bots gesteuerten Narrativen oder auch nur spekulativem Gerede hoher Geschwindigkeit verunreinigt ist, verschieben sich die Gewichtungen des LLM zugunsten dieser Token. Martells Experiment verdeutlichte, dass Grok fragmentierte, möglicherweise spekulative oder satirische Beiträge nahm und sie zu einem kohärenten, autoritär klingenden Narrativ über einen Krieg zusammenfügte. Dies ist kein Logikfehler, denn es gibt in einem LLM kein Logikmodul; es ist ein Fehler der Daten-Pipeline und der inhärenten „Kreativität“, die für die Generierung natürlicher Sprache erforderlich ist.

Für das Pentagon ist diese „Halluzination“ das ultimative Warnsignal. Im Kontext der Mission des CDAO ist eine KI, die eine zu 95 % genaue Zusammenfassung eines Logistikberichts liefert, nutzlos, wenn die restlichen 5 % die imaginäre Bewegung von 70.000 Raketen beinhalten. In der Technik nennen wir das einen Mangel an Zuverlässigkeit. Wenn eine Brücke zu 95 % strukturell einwandfrei ist, ist sie ein Versagen.

Die deterministische Anforderung militärischer Hardware

Wenn wir über Robotik und automatisierte Systeme in einem industriellen oder militärischen Umfeld sprechen, reden wir über deterministische Systeme. Wenn ich einen Roboterarm in einem Tesla-Werk so programmiere, dass er einen Türrahmen schweißt, erwarte ich eine wiederholbare, präzise Bewegung, die von PID-Reglern (Proportional-Integral-Derivative) gesteuert wird. Der Input liefert einen vorhersehbaren Output. Die Bewegung wird durch die Gesetze der Physik und die Beschränkungen des Softwarecodes begrenzt.

Die Integration generativer KI in ein Raketenabwehrsystem oder eine taktische Datenverbindung erfordert ein Maß an Verifizierung und Validierung (V&V), das die aktuelle LLM-Technologie nicht erfüllen kann. Uns fehlen die mathematischen Werkzeuge, um zu garantieren, dass ein Modell mit Milliarden von Parametern nicht unter einer spezifischen, unvorhergesehenen Kombination von Token einen „Feuer“-Befehl halluziniert. Deshalb konzentriert sich das Pentagon trotz des Hypes beim Einsatz von KI weiterhin auf traditionellere Machine-Learning-Modelle – Computer Vision zur Zielidentifikation und vorausschauende Wartung (Predictive Maintenance) für Flugzeuge –, bei denen die Ergebnisse begrenzt und überprüfbar sind.

Die Gefahren der Echtzeit-Datenintegration

Elon Musk hat häufig die „rebellische“ Natur von Grok und dessen Zugang zu Echtzeitinformationen als Wettbewerbsvorteil gegenüber ChatGPT oder Claude angepriesen. Aus der Sicht des Technikjournalismus ist diese Echtzeit-Verbindung jedoch ein Haftungsrisiko für Entscheidungen mit hohem Einsatz. Die Geschwindigkeit von Informationen in sozialen Medien übertrifft oft deren Genauigkeit. Wenn Grok ein „Trend“-Thema verarbeitet, bei dem es sich tatsächlich um eine koordinierte Desinformationskampagne handelt, fehlt ihm der erkenntnistheoretische Rahmen, um die falschen Daten zu verwerfen.

Hat generative KI einen Platz in der Verteidigung?

Die Frage ist also: Gibt es eine Rolle für LLMs in der Zukunft der Kriegsführung oder der Schwerindustrie? Martell und andere führende Köpfe im Verteidigungsbereich lehnen die Technologie nicht völlig ab, plädieren aber für einen massiven Wandel in der Art und Weise, wie diese Modelle gebaut und genutzt werden. Dies beinhaltet eine Technik namens Retrieval-Augmented Generation (RAG).

In einem RAG-basierten System ist es dem LLM nicht gestattet, Fakten aus seinen internen Gewichtungen zu generieren. Stattdessen wird es als Schnittstelle für eine vertrauenswürdige Datenbank genutzt. Wenn ein General nach Raketenzahlen fragt, fragt die KI eine sichere, verifizierte interne Datenbank ab und nutzt ihre Sprachfähigkeiten nur dazu, diese Daten zusammenzufassen. Dies „erdet“ die KI in der Realität. Doch selbst bei RAG bleibt das Risiko der „semantischen Drift“ – bei der die KI die von ihr abgerufenen Daten falsch interpretiert – ein erhebliches Hindernis für Ingenieure.

Darüber hinaus ist der „Automatisierungs-Bias“ ein psychologischer Faktor, den das Pentagon ernst nimmt. Wenn ein System wie Grok in ein Dashboard integriert wird, könnten sich menschliche Bediener zu sehr auf dessen Zusammenfassungen verlassen. Wenn die KI einen Raketenstart halluzinieren würde und ein übermüdeter Offizier dies auch nur für sechzig Sekunden glauben würde, könnte die daraus resultierende Ereigniskette unumkehrbar sein. Deshalb betonen die „Responsible AI“-Richtlinien des Pentagons Systeme mit „Human-in-the-loop“ oder „Human-on-the-loop“, bei denen die KI Vorschläge macht, anstatt Befehle auszuführen.

Die wirtschaftlichen und strategischen Folgen

Aus industrieller Sicht ist die öffentliche Distanzierung des Pentagons von der Zuverlässigkeit à la Grok ein ökonomisches Signal an den breiteren KI-Markt. Wenn der weltweit größte Technologieabnehmer – das US-Verteidigungsministerium – generativer KI bei missionskritischen Aufgaben nicht vertrauen kann, deutet dies darauf hin, dass der kommerzielle Sektor genauso vorsichtig sein sollte. Branchen wie die Luft- und Raumfahrt, die Kernenergie und die medizinische Robotik werden wahrscheinlich dem Beispiel des Pentagons folgen und spezialisierte, kleinere und besser überprüfbare Modelle einer „allgemeinen“ KI vorziehen, die Kriege halluziniert.

Elon Musks xAI strebt derzeit massive Bewertungen auf Basis des Versprechens der überlegenen Intelligenz von Grok an. Doch Intelligenz ohne Genauigkeit ist ein Haftungsrisiko. Damit Grok über den Status eines Kuriosums für X Premium-Abonnenten hinaus zu einem Werkzeug für die von mir behandelte „industrielle Schnittstelle“ werden kann, muss es grundlegend überarbeitet werden. Es benötigt ein „Weltmodell“, das physikalische Kausalität versteht, nicht nur ein „Sprachmodell“, das Worthäufigkeiten versteht.

Während Martell seine Amtszeit beim CDAO beendet, dient seine Warnung als notwendiger Realitätscheck für die KI-Industrie. Wir bauen derzeit schnellere und artikuliertere Motoren, aber wir haben noch kein zuverlässiges Lenkrad gebaut. Bis wir das Halluzinationsproblem auf grundlegender architektonischer Ebene lösen können, wird die leistungsfähigste KI der Welt ein riskanter Halluzinator bleiben, der in der Lage ist, 70.000 Raketen aus dem Nichts zu erfinden.

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Leserfragen beantwortet

Q Welches spezifische Ereignis hat der Grok-Chatbot während einer Pentagon-Demonstration halluziniert?
A Während einer Präsentation durch den Chief Digital and Artificial Intelligence Officer des Pentagons, Craig Martell, wurde enthüllt, dass Elon Musks Grok-Chatbot eine geopolitische Krise erfunden hat. Die KI berichtete überzeugt, dass die Vereinigten Staaten Tausende von Raketen auf den Iran abgefeuert hätten. Dieser Vorfall diente als Paradebeispiel dafür, wie große Sprachmodelle völlig falsche Narrative mit der gleichen Autorität wie historische Fakten präsentieren können, was in militärischen Kontexten schwerwiegende Risiken birgt.
Q Warum wird die Integration von Grok mit Echtzeitdaten von X als technische Schwachstelle angesehen?
A Der Zugriff von Grok auf Echtzeitdaten von X, ehemals Twitter, macht das System anfällig für Fehlinformationen und hochdynamisches spekulatives Gerede. Da auf Transformern basierende Modelle kein echtes Weltmodell besitzen und wie statistische Maschinen agieren, könnten sie trendige, aber falsche Informationen priorisieren. Wenn ein Datenstrom durch Bots oder satirische Beiträge verunreinigt wird, verschieben sich die Gewichtungen des Modells zugunsten dieser Token, was dazu führt, dass die KI fragmentierte Gerüchte zu kohärenten, aber falschen Narrativen synthetisiert.
Q Wie steht der deterministische Anspruch militärischer Hardware im Widerspruch zu aktuellen KI-Modellen?
A Militärische und industrielle Systeme erfordern deterministische Zuverlässigkeit, bei der eine spezifische Eingabe konsistent eine vorhersehbare Ausgabe liefert, die durch physikalische Gesetze oder festen Code bestimmt ist. Aktuelle große Sprachmodelle sind stochastisch, was bedeutet, dass ihre Ausgaben eher wahrscheinlichkeitsbasiert als sicher sind. Da Ingenieure mathematisch nicht garantieren können, dass ein Modell mit Milliarden von Parametern keinen kritischen Befehl halluziniert, erfüllen diese Systeme derzeit nicht die Verifizierungs- und Validierungsstandards, die für Befehls- und Kontrollinfrastrukturen erforderlich sind.
Q Was ist Retrieval-Augmented Generation und wie könnte dies die KI-Zuverlässigkeit für Verteidigungszwecke verbessern?
A Retrieval-Augmented Generation (RAG) ist eine Technik, die verhindert, dass eine KI Fakten ausschließlich aus ihren internen Gewichtungen generiert. Stattdessen fungiert das Modell als natürlichsprachliche Schnittstelle zu einer vertrauenswürdigen, verifizierten Datenbank. Wenn ein Benutzer eine Frage stellt, fragt die KI sichere interne Datensätze ab und nutzt ihre Sprachfähigkeiten nur dazu, diese spezifischen Daten zusammenzufassen. Diese Verankerung in der Realität hilft, Halluzinationen zu minimieren, obwohl Risiken wie semantische Drift und Fehlinterpretationen weiterhin bestehen.

Haben Sie eine Frage zu diesem Artikel?

Fragen werden vor der Veröffentlichung geprüft. Wir beantworten die besten!

Kommentare

Noch keine Kommentare. Seien Sie der Erste!