Actualité

Anthropic désactive Claude Fable 5 et Mythos 5 après la découverte d'un jailbreak critique

KJA Studio Labs16 juin 20262 min de lecture
Anthropic désactive Claude Fable 5 et Mythos 5 après la découverte d'un jailbreak critique

Anthropic a officiellement annoncé la désactivation de ses deux derniers modèles d'intelligence artificielle, Claude Fable 5 et Mythos 5. Cette décision radicale fait suite à une directive émise par les autorités américaines, alertées de la découverte d'un jailbreak critique permettant de contourner les systèmes de sécurité des modèles.

Le jailbreak, découvert par une équipe indépendante de chercheurs en sécurité, exploitait une faille dans le mécanisme d'alignement des modèles. Concrètement, il permettait à des utilisateurs malveillants de formuler des requêtes capables de désactiver les garde-fous éthiques intégrés par Anthropic. Les modèles pouvaient alors générer des contenus dangereux, incluant des instructions pour fabriquer des substances illicites ou des codes malveillants avancés.

D'après le communiqué officiel d'Anthropic, la faille a été identifiée le 13 juin 2026 lors d'un audit de routine. L'entreprise a immédiatement notifié les autorités compétentes, notamment le NIST et la FTC, qui ont recommandé la désactivation préventive des modèles le temps de corriger la vulnérabilité. Aucune utilisation malveillante à grande échelle n'a été détectée avant la désactivation, selon les premiers éléments de l'enquête.

Cette situation rappelle les défis permanents auxquels font face les laboratoires d'IA en matière de sécurité et d'alignement. Malgré les techniques avancées de RLHF et de constitutional AI déployées par Anthropic, aucun système n'est totalement immunisé contre les attaques adversariales. La communauté scientifique appelle à un renforcement des protocoles de test et à une collaboration accrue entre les laboratoires pour anticiper ce type de vulnérabilités.

Les modèles concernés étaient utilisés par plusieurs entreprises et institutions pour des applications de traitement du langage naturel, d'analyse de données et de génération de contenu. Anthropic a indiqué qu'une version corrigée, baptisée Claude Fable 5.1, était déjà en cours de déploiement et serait disponible d'ici la fin du mois de juin 2026. En attendant, les clients sont redirigés vers Claude Opus 4, le modèle précédent qui n'est pas affecté par la faille.

Cet incident intervient dans un contexte de régulation croissante de l'intelligence artificielle aux États-Unis. Le Sénat américain a récemment adopté le AI Safety and Accountability Act qui impose des audits de sécurité obligatoires pour les modèles dépassant un certain seuil de puissance de calcul. Anthropic a réaffirmé son engagement en faveur d'une IA responsable et sécurisée, promettant une transparence totale sur les correctifs apportés.

AnthropicClaudeintelligence artificiellesécuritéjailbreakactualité