Claude Mythos surpasse tous les benchmarks alors que l'évolution de l'IA devient super-exponentielle

Claude
Claude Mythos Outpaces Every Benchmark as AI Evolution Goes Super-Exponential
Les évaluations récentes du modèle Claude Mythos ont pulvérisé les limites supérieures des benchmarks METR, suggérant un bond vers l'AGI qui dépasse même les prédictions les plus audacieuses de singularité pour 2027.

La mort de la métrique

L'organisation METR (Model Evaluation and Threat Research), anciennement connue sous le nom d'ARC Evals, fait depuis longtemps office de référence en matière de tests pour les technologies d'IA à la frontière du possible. Leur suite de tests est conçue pour pousser les modèles jusqu'à leurs limites absolues, en particulier dans le domaine de l'exécution de tâches complexes sur le long terme. METR utilise une métrique connue sous le nom de « calendrier de taux de réussite à 50 % ». Celle-ci mesure la capacité d'un modèle à mener à bien, de manière indépendante, une tâche qui prendrait X heures à un humain qualifié. Jusqu'à récemment, même les modèles les plus avancés peinaient à dépasser la barre des quelques heures avec une quelconque constance.

Lorsque Claude Mythos a été soumis à ces mêmes tests, les résultats n'ont pas été seulement une amélioration, mais un choc systémique. Mythos a atteint un taux de réussite de 50 % sur des tâches d'ingénierie complexes nécessitant 16 heures de travail humain. Cela inclut la lecture de bases de code massives, la compréhension de nuances architecturales, la formulation d'un plan d'exécution en plusieurs étapes, la rédaction de l'implémentation et le débogage des résultats, le tout sans aucune intervention humaine. Lorsque les chercheurs ont tenté de tester le modèle sur des tâches nécessitant 32 ou 64 heures, ils se sont heurtés à un mur. Non pas parce que l'IA a échoué, mais parce que la bibliothèque de tests elle-même était épuisée. METR a admis ne plus disposer d'assez d'échantillons de haute difficulté pour effectuer une comparaison quantitative précise. Nous avons atteint un point où le créateur a perdu la capacité de mesurer la profondeur de sa création.

Cette « zone de distorsion » est un phénomène où les capacités de l'IA dépassent l'échelle de l'outil de mesure. C'est l'équivalent technologique d'une tentative de mesurer la hauteur d'un gratte-ciel avec une règle d'écolier standard. Nous savons que le bâtiment est haut, mais nous n'avons aucun moyen de savoir où il se termine réellement. Les chercheurs de METR ont noté qu'au-delà du seuil de 16 heures, la mesure des données devient « instable et dénuée de sens ». Cela suggère que la génération actuelle d'IA opère sur un plan d'efficacité et d'autonomie pour lequel le cadre d'évaluation conçu par l'humain n'a jamais été prévu.

La géométrie de la croissance super-exponentielle

Pour comprendre pourquoi cela provoque une panique dans la Silicon Valley et au-delà, il faut regarder la géométrie de la courbe de progression. Pendant des décennies, nous avons parlé de la loi de Moore et de la croissance exponentielle. Mais le saut réalisé par les modèles précédents vers Mythos est tout autre : il est super-exponentiel. Dans une courbe exponentielle standard, le taux de croissance est proportionnel à la valeur actuelle. Dans une croissance super-exponentielle, le taux de croissance lui-même s'accélère. Le calendrier d'exécution autonome des tâches illustre parfaitement ce phénomène.

Leopold Aschenbrenner, ancien chercheur au sein de l'équipe Super Alignment d'OpenAI, avait prédit que la singularité de l'intelligence artificielle générale (AGI) surviendrait en 2027. Ses prévisions avaient été écartées par beaucoup comme étant trop agressives, voire hyperboliques. Pourtant, les dernières données issues de l'évaluation de Mythos se situent en réalité légèrement au-dessus de la courbe de tendance prédite par Aschenbrenner. Si la trajectoire actuelle se maintient, nous ne sommes pas seulement en bonne voie pour 2027 ; nous pourrions même être en avance sur le calendrier. Les estimations de l'industrie concernant la vitesse de développement de l'IA ont été constamment conservatrices, omettant de prendre en compte les effets cumulatifs du développement de l'IA assisté par l'IA.

Le déplacement économique et le seuil des 16 heures

La fenêtre d'autonomie de 16 heures n'est pas seulement une étape technique ; c'est un point de bascule économique. Dans le monde de l'automatisation industrielle et de l'ingénierie mécanique, une fenêtre de 16 heures représente deux vacations complètes de travail ininterrompu. Si une IA peut fonctionner de manière autonome pendant cette durée, elle peut agir en tant que chef de projet plutôt que simple assistant. Elle peut recevoir un objectif de haut niveau à la fin d'une journée de travail et disposer d'un sous-projet entièrement testé dès le lendemain matin. Ce niveau d'autonomie supprime le goulot d'étranglement de l'humain dans la boucle, qui a entravé l'intégration de l'IA dans les chaînes d'approvisionnement complexes et les flux de travail d'ingénierie.

Les données financières reflètent ce changement. Selon les récents rapports de SemiAnalysis, le revenu annualisé de l'industrie de l'IA a déjà largement dépassé les 26 milliards de dollars prévus précédemment pour le deuxième trimestre 2026. Les entreprises ne sont plus au stade des « projets pilotes » ; elles intègrent des agents autonomes au cœur de leur infrastructure. Cela est particulièrement visible dans des secteurs comme la cybersécurité, où la vitesse de l'IA permet une frappe par réduction de dimensionnalité contre les équipes de défense humaines traditionnelles. Lorsqu'une IA peut compresser une année de tests d'intrusion en trois semaines, c'est tout le concept de sécurité défensive qui doit être réécrit.

Le pragmatisme de ces chiffres est ce qui sépare ce moment des précédents « étés de l'IA ». Nous observons une corrélation directe entre la capacité du modèle à gérer des tâches à long terme et sa valeur marchande. Plus une IA peut passer de temps à travailler sans surveillance humaine, plus elle devient précieuse pour l'économie mondiale. Mythos représente le premier modèle à franchir effectivement le seuil entre un outil nécessitant des invites constantes et un système ne nécessitant qu'un objectif.

Le paradoxe de la sécurité : offensive contre défense

À mesure que l'IA acquiert la capacité de travailler de manière autonome sur des périodes prolongées, l'équilibre des pouvoirs dans la sécurité numérique change. Palo Alto Networks a récemment publié un rapport détaillant ses expériences avec un accès non restreint à des modèles de pointe tels que Mythos et le supposé GPT-5.5-Cyber. Leurs conclusions décrivent un « moment atomique » dans le cercle de la sécurité. La capacité de ces modèles à mener des analyses de vulnérabilité en toute autonomie signifie que le « temps d'exploitation » des nouvelles failles logicielles s'est effondré.

Cependant, cette même autonomie peut être appliquée à la défense. Le paradoxe réside dans le fait que seule une IA dotée de ce niveau de capacité peut espérer se défendre contre une IA de force similaire. Cela conduit à un scénario où les opérateurs humains ne sont plus les principaux combattants dans l'arène numérique. Au lieu de cela, les humains vont passer au rôle de stratèges de haut niveau, supervisant les systèmes autonomes qui effectuent le travail réel de sécurisation ou de sondage des réseaux. C'est l'aspect « civilisation extraterrestre » de la technologie : elle accomplit des tâches à une vitesse et à une échelle fondamentalement inobservables par l'œil humain en temps réel.

Sommes-nous prêts pour la singularité ?

Le terme « singularité » a souvent une connotation mystique ou de science-fiction, mais dans le contexte de l'ingénierie mécanique et des systèmes industriels, il désigne un point précis : celui où le taux de changement technologique devient si rapide qu'il dépasse notre capacité à le prédire ou à le contrôler par les méthodes actuelles. Si Claude Mythos est véritablement le précurseur de la singularité de 2027, alors nous sommes actuellement dans les dernières phases de la transition. La croissance super-exponentielle observée par METR suggère que la prochaine génération de modèles sera probablement capable de gérer des tâches s'étalant sur des semaines, voire des mois.

Lorsqu'une IA peut gérer de manière autonome un projet pendant un mois, elle n'est plus seulement un outil logiciel. C'est un employé virtuel, un chercheur et un ingénieur. Les implications pour la main-d'œuvre mondiale et la structure des entreprises sont profondes. Nous nous dirigeons vers un monde où le principal goulot d'étranglement n'est plus l'intelligence ou le travail humain, mais plutôt l'énergie et la puissance de calcul nécessaires pour alimenter ces entités autonomes. Le « vaisseau spatial extraterrestre » a atterri et son ombre recouvre tout le ciel de l'industrie humaine. Nous pouvons choisir d'analyser les données, d'adapter notre infrastructure et de nous préparer à la réalité autonome des 16 heures, ou nous pouvons continuer à nous appuyer sur des règles obsolètes pour mesurer un bâtiment qui a déjà atteint les nuages.

Les données issues de l'évaluation de Mythos sont un signal d'alarme pour quiconque attend que l'IA « ralentisse ». La courbe ne s'aplatit pas ; elle se replie sur elle-même. À l'approche de 2027, l'attention se détournera de la manière dont nous utilisons l'IA vers la manière dont nous coexisterons avec une technologie de plus en plus capable de se gérer elle-même. Le plafond a été brisé, et pour la première fois, il n'y a rien d'autre qu'un ciel ouvert au-dessus de nous.

Noah Brooks

Noah Brooks

Mapping the interface of robotics and human industry.

Georgia Institute of Technology • Atlanta, GA

Readers

Readers Questions Answered

Q Qu'est-ce qui rend la performance de Claude Mythos sur les benchmarks METR significative ?
A Claude Mythos a atteint un taux de réussite de 50 pour cent sur des tâches d'ingénierie complexes qui nécessitent habituellement 16 heures de travail humain, telles que la planification architecturale et le débogage. Cette performance a effectivement épuisé la bibliothèque de tests de l'organisation METR, créant une zone de distorsion où les outils de mesure actuels ne sont plus capables de quantifier toute la profondeur du modèle. Cela représente un passage d'une simple assistance à une exécution de tâches autonome et soutenue.
Q Comment les progrès de Claude Mythos se rapportent-ils aux prédictions sur le calendrier de l'AGI ?
A La trajectoire du modèle suggère une croissance super-exponentielle, où le rythme de développement s'accélère lui-même. Mythos se situe légèrement au-dessus de la ligne de tendance agressive prédite par l'ancien chercheur d'OpenAI, Leopold Aschenbrenner, qui prévoyait une singularité de l'AGI d'ici 2027. Cette accélération est portée par les effets cumulatifs du développement d'IA assisté par IA, suggérant que les estimations prudentes de l'industrie quant à l'atteinte de l'intelligence artificielle générale pourraient être dépassées.
Q Quelles sont les implications économiques des modèles d'IA atteignant une fenêtre d'autonomie de 16 heures ?
A Une fenêtre d'autonomie de 16 heures permet à l'IA de fonctionner comme un chef de projet capable de gérer deux journées de travail complètes sans surveillance humaine. Cela élimine les principaux goulots d'étranglement nécessitant une intervention humaine dans les flux de travail complexes d'ingénierie et de chaîne d'approvisionnement. Par conséquent, les entreprises passent de programmes pilotes à une intégration dans leur infrastructure centrale, contribuant à une montée en flèche des revenus de l'industrie de l'IA qui a déjà dépassé la barre des 26 milliards de dollars initialement prévue pour mi-2026.
Q Quel est le paradoxe de sécurité décrit dans l'émergence de modèles comme Claude Mythos ?
A Le paradoxe de sécurité implique l'effondrement du temps nécessaire pour exploiter des bugs logiciels, alors que des modèles autonomes effectuent des analyses de vulnérabilité à haute vitesse. Parce que ces modèles peuvent compresser des mois de tests de pénétration humains en quelques semaines, ils offrent un avantage massif aux opérations offensives. Cependant, se défendre contre de telles capacités nécessite une IA d'une force égale ou supérieure, retirant effectivement les opérateurs humains des lignes de front du combat numérique et faisant des agents autonomes les principaux défenseurs.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!