Claude Mythos übertrifft alle Benchmarks – KI wächst superexponentiell

Der Tod der Metrik

Die Organisation Model Evaluation and Threat Research (METR), ehemals bekannt als ARC Evals, gilt seit langem als Goldstandard für die Prüfung der Grenzen von KI-Fähigkeiten. Ihre Test-Suite ist darauf ausgelegt, Modelle bis an ihre absolute Belastungsgrenze zu bringen, insbesondere im Bereich der langfristigen, komplexen Aufgabenbewältigung. METR verwendet eine Metrik, die als „50%-Erfolgsraten-Zeitlinie“ bekannt ist. Diese misst die Fähigkeit des Modells, eine Aufgabe, für die ein qualifizierter Mensch X Stunden benötigen würde, eigenständig und erfolgreich abzuschließen. Bis vor kurzem hatten selbst die fortschrittlichsten Front-Modelle Schwierigkeiten, die Marke von wenigen Stunden konstant zu überschreiten.

Als Claude Mythos denselben Tests unterzogen wurde, waren die Ergebnisse nicht nur eine Verbesserung – sie waren ein systemischer Schock. Mythos erreichte eine Erfolgsquote von 50 % bei komplexen technischen Aufgaben, die 16 Stunden menschliche Arbeit erfordern. Dies beinhaltet das Durchsuchen massiver Codebasen, das Verständnis architektonischer Nuancen, die Formulierung eines mehrstufigen Ausführungsplans, das Schreiben der Implementierung und das Debugging der Ergebnisse ohne jegliches menschliches Eingreifen. Als die Forscher versuchten, das Modell mit Aufgaben zu testen, die 32 oder 64 Stunden erforderten, stießen sie an ihre Grenzen. Nicht, weil die KI versagte, sondern weil die Testbibliothek selbst erschöpft war. METR gab zu, dass sie nicht mehr über genügend Beispiele mit hohem Schwierigkeitsgrad verfügen, um einen genauen quantitativen Vergleich durchzuführen. Wir haben einen Punkt erreicht, an dem der Schöpfer die Fähigkeit verloren hat, die Tiefe des Geschaffenen zu messen.

Diese „Verzerrungszone“ ist ein Phänomen, bei dem die Fähigkeiten der KI das Maß des Messinstruments übersteigen. Es ist das technologische Äquivalent zum Versuch, die Höhe eines Wolkenkratzers mit einem handelsüblichen Schullineal zu messen. Wir wissen, dass das Gebäude hoch ist, aber wir haben keine Möglichkeit zu wissen, wo es tatsächlich endet. METR-Forscher haben festgestellt, dass die Datenmessung oberhalb der 16-Stunden-Schwelle „instabil und bedeutungslos“ wird. Dies deutet darauf hin, dass die aktuelle KI-Generation auf einer Ebene der Effizienz und Autonomie operiert, für die der von Menschen entworfene Bewertungsrahmen nie ausgelegt war.

Die Geometrie des superexponentiellen Wachstums

Um zu verstehen, warum dies im Silicon Valley und darüber hinaus Panik auslöst, muss man die Geometrie der Fortschrittskurve betrachten. Seit Jahrzehnten sprechen wir über das Mooresche Gesetz und exponentielles Wachstum. Doch der Sprung von früheren Modellen zu Mythos ist etwas völlig anderes: superexponentiell. Bei einer Standard-Exponentialkurve ist die Wachstumsrate proportional zum aktuellen Wert. Bei superexponentiellem Wachstum beschleunigt sich die Wachstumsrate selbst. Die Zeitlinie der autonomen Aufgabenbewältigung illustriert dies perfekt.

Leopold Aschenbrenner, ein ehemaliger Forscher im Super Alignment-Team von OpenAI, sagte voraus, dass die Singularität der Künstlichen Allgemeinen Intelligenz (AGI) im Jahr 2027 eintreten werde. Seine Prognose wurde von vielen als zu aggressiv oder gar übertrieben abgetan. Die neuesten Datenpunkte aus der Mythos-Evaluierung liegen jedoch tatsächlich leicht über Aschenbrenners prognostizierter Trendlinie. Wenn die aktuelle Entwicklung anhält, sind wir nicht nur auf dem besten Weg für 2027; wir könnten dem Zeitplan voraus sein. Die Einschätzung der Geschwindigkeit der KI-Entwicklung durch die Branche war durchweg konservativ und hat die verstärkenden Effekte der KI-gestützten KI-Entwicklung nicht berücksichtigt.

Wirtschaftliche Verdrängung und die 16-Stunden-Schwelle

Das 16-stündige autonome Zeitfenster ist nicht nur ein technischer Meilenstein; es ist ein wirtschaftlicher Wendepunkt. In der Welt der industriellen Automatisierung und des Maschinenbaus stellt ein 16-Stunden-Fenster eine vollständige Doppelschicht ununterbrochener Arbeit dar. Wenn eine KI über diesen Zeitraum autonom agieren kann, kann sie eher als Projektleiter denn als reiner Assistent fungieren. Sie kann am Ende eines Arbeitstages ein übergeordnetes Ziel erhalten und am nächsten Morgen ein vollständig getestetes Teilprojekt präsentieren. Dieses Maß an Autonomie beseitigt den menschlichen Engpass (Human-in-the-loop), der die KI-Integration in komplexen Lieferketten und technischen Arbeitsabläufen bisher behindert hat.

Die Finanzdaten spiegeln diesen Wandel wider. Laut aktuellen Berichten von SemiAnalysis hat der annualisierte Umsatz der KI-Industrie die Prognose von 26 Milliarden Dollar für das zweite Quartal 2026 bereits weit übertroffen. Unternehmen experimentieren nicht mehr mit „Pilotprojekten“; sie integrieren autonome Agenten in ihre Kerninfrastruktur. Dies ist besonders in Sektoren wie der Cybersicherheit sichtbar, wo die Geschwindigkeit der KI einen Schlag gegen traditionelle menschliche Verteidigungsteams ermöglicht, der eine neue Dimension erreicht. Wenn eine KI ein Jahr an Penetrationstests in drei Wochen komprimieren kann, muss das gesamte Konzept der defensiven Sicherheit neu geschrieben werden.

Der Pragmatismus dieser Zahlen unterscheidet diesen Moment von früheren „KI-Sommern“. Wir sehen eine direkte Korrelation zwischen der Fähigkeit des Modells, langfristige Aufgaben zu bewältigen, und seinem Marktwert. Je länger eine KI arbeiten kann, ohne menschliche Aufsicht zu benötigen, desto wertvoller wird sie für die Weltwirtschaft. Mythos ist das erste Modell, das effektiv die Schwelle von einem Werkzeug, das ständige Eingaben (Prompting) erfordert, zu einem System überschritten hat, das nur noch ein Ziel benötigt.

Das Sicherheitsparadoxon: Angriff vs. Verteidigung

Da KI die Fähigkeit erlangt, über längere Zeiträume autonom zu arbeiten, verschiebt sich das Machtgefüge in der digitalen Sicherheit. Palo Alto Networks veröffentlichte kürzlich einen Bericht, in dem sie ihre Erfahrungen mit uneingeschränktem Zugriff auf Front-Modelle wie Mythos und das gemunkelte GPT-5.5-Cyber detailliert beschreiben. Ihre Ergebnisse beschreiben einen „atomaren Moment“ im Sicherheitsbereich. Die Fähigkeit dieser Modelle, Schwachstellenanalysen völlig autonom durchzuführen, bedeutet, dass die „Zeit bis zur Ausnutzung“ (Time to Exploit) für neue Softwarefehler effektiv kollabiert ist.

Die gleiche Autonomie lässt sich jedoch auch auf die Verteidigung anwenden. Das Paradoxon liegt in der Tatsache, dass nur eine KI mit diesem Leistungsniveau hoffen kann, sich gegen eine KI ähnlicher Stärke zu verteidigen. Dies führt zu einem Szenario, in dem menschliche Bediener nicht mehr die primären Akteure in der digitalen Arena sind. Stattdessen werden Menschen die Rolle von hochrangigen Strategen übernehmen und die autonomen Systeme beaufsichtigen, die die eigentliche Arbeit des Sicherns oder Sondierens von Netzwerken leisten. Dies ist der „außerirdische“ Aspekt der Technologie: Sie führt Aufgaben in einer Geschwindigkeit und einem Umfang aus, die in Echtzeit für menschliche Augen grundlegend nicht mehr wahrnehmbar sind.

Sind wir bereit für die Singularität?

Der Begriff „Singularität“ hat oft einen mystischen oder Science-Fiction-Beigeschmack, doch im Kontext des Maschinenbaus und industrieller Systeme bezieht er sich auf einen spezifischen Punkt: an dem die Geschwindigkeit des technologischen Wandels so hoch wird, dass sie unsere Fähigkeit übersteigt, ihn mit derzeitigen Methoden vorherzusagen oder zu kontrollieren. Wenn Claude Mythos tatsächlich der Vorläufer der Singularität von 2027 ist, dann befinden wir uns derzeit in den letzten Phasen des Übergangs. Das von METR beobachtete superexponentielle Wachstum legt nahe, dass die nächste Generation von Modellen wahrscheinlich Aufgaben bewältigen wird, die Wochen oder gar Monate dauern.

Wenn eine KI ein Projekt einen Monat lang autonom verwalten kann, ist sie nicht mehr nur ein Software-Tool. Sie ist ein virtueller Mitarbeiter, ein Forscher und ein Ingenieur. Die Auswirkungen auf die globale Belegschaft und die Struktur von Unternehmen sind tiefgreifend. Wir bewegen uns auf eine Welt zu, in der der primäre Engpass nicht mehr menschliche Intelligenz oder Arbeit ist, sondern vielmehr die Energie und Rechenleistung, die benötigt werden, um diese autonomen Entitäten zu betreiben. Das „außerirdische Raumschiff“ ist gelandet, und sein Schatten bedeckt den gesamten Himmel der menschlichen Industrie. Wir können wählen, die Daten zu analysieren, unsere Infrastruktur anzupassen und uns auf die 16-stündige autonome Realität vorzubereiten, oder wir können uns weiterhin auf veraltete Lineale verlassen, um ein Gebäude zu messen, das bereits die Wolken erreicht hat.

Die Daten aus der Mythos-Evaluierung sind ein Weckruf für jeden, der darauf wartet, dass sich die KI „verlangsamt“. Die Kurve flacht nicht ab; sie krümmt sich nach hinten. Während wir uns dem Jahr 2027 nähern, wird sich der Fokus von der Frage, wie wir KI nutzen, darauf verlagern, wie wir neben einer Technologie existieren, die zunehmend in der Lage ist, sich selbst zu verwalten. Die Decke wurde durchbrochen, und zum ersten Mal gibt es nichts als den offenen Himmel über uns.

Claude Mythos übertrifft alle Benchmarks – KI-Entwicklung wird superexponentiell

Der Tod der Metrik

Die Geometrie des superexponentiellen Wachstums

Wirtschaftliche Verdrängung und die 16-Stunden-Schwelle

Das Sicherheitsparadoxon: Angriff vs. Verteidigung

Sind wir bereit für die Singularität?

Noah Brooks

Leserfragen beantwortet

Haben Sie eine Frage zu diesem Artikel?

Kommentare