Anthropic a lancé Claude Fable 5 hier, et je veux être prudent sur la façon dont j’en parle, car la ferveur marketing entourant les lancements de modèles est désormais fixée en permanence sur « cela change tout ». La plupart du temps, ce n’est pas le cas. Celui-ci a plus de chances d’avoir une réelle importance, et pas entièrement pour les raisons mises en avant dans l’article de lancement.
Voici la version courte pour les personnes pressées : Fable 5 est le premier modèle d’un nouveau palier qu’Anthropic appelle la classe Mythos, qui se situe au-dessus de la gamme Opus. C’est le modèle le plus performant qu’ils aient jamais rendu accessible au grand public. C’est également le premier modèle qu’ils déploient avec un mur de sécurité rigide fixé à l’avant, et ce mur se fera sentir dans votre travail quotidien, que cela vous plaise ou non. Ces deux faits constituent la véritable histoire.

Depuis avril, Anthropic gère un programme appelé Glasswing, dans le cadre duquel un petit nombre de partenaires de la cyberdéfense et des infrastructures critiques ont eu accès à un modèle nommé Mythos Preview. La raison pour laquelle il a été verrouillé est que ce même modèle est exceptionnellement doué pour trouver et exploiter des vulnérabilités logicielles, et ils ont décidé qu’il était trop dangereux de le mettre entre les mains de tout le monde.
Fable 5 est ce même modèle sous-jacent, rendu public. L’astuce réside dans le nom. Mythos 5 (toujours réservé aux partenaires approuvés) est le modèle brut. Fable 5 est Mythos 5 avec des mesures de sécurité en amont. Même cerveau, laisse différente.
Donc, quand vous lisez « premier modèle de classe Mythos accessible au public », cela signifie en pratique : vous obtenez des capacités de pointe sur la plupart des tâches, et une redirection polie sur un ensemble restreint de sujets qu’Anthropic considère comme à haut risque.
Sur SWE-Bench Pro, qui soumet au modèle de véritables tâches d’ingénierie provenant de dépôts GitHub publics sans aucune assistance, Fable 5 atteint 80,3 %. À titre de comparaison, Opus 4.8 se situe à 69,2 %, GPT-5.5 à 58,6 % et Gemini 3.1 Pro à 54,2 %. C’est un véritable écart, pas une erreur d’arrondi.
Celui qui a retenu mon attention est FrontierCode de Cognition, qui vérifie si un modèle peut réussir des tâches de codage complexes tout en respectant les normes de bases de code en production. Fable 5 obtient un score de 29,3 %. Opus 4.8 atteint 13,4 %. GPT-5.5 obtient 5,7 %. Les chiffres absolus sont bas car le benchmark est brutal, mais le bond relatif est la partie intéressante. C’est environ le double d’Opus sur le type de tâche qui ressemble vraiment à votre travail.
L’anecdote sur laquelle Anthropic s’appuie le plus : Stripe l’a testé contre une base de code Ruby de 50 millions de lignes et lui a fait faire une migration à l’échelle du code en une journée, ce qui aurait pris plus de deux mois à une équipe manuellement, selon leurs estimations. Il faut prendre les histoires clients fournies par les éditeurs avec les pincettes habituelles, mais la nature de la revendication (refactorisations longues, fastidieuses et mécaniques à grande échelle) correspond exactement à ce qui prouve la valeur de ces modèles, donc je trouve cela plausible.
Deux choses m’importent plus que n’importe quel benchmark individuel. Premièrement, il est plus efficace en termes de tokens que les modèles Claude précédents, terminant ses tâches en moins de tours. Sur de longues exécutions d’agents, c’est la différence entre un outil en lequel vous avez confiance pour continuer et un outil que vous devez materner. Deuxièmement, il tient la route sur des tâches à long horizon. L’avance sur Opus s’élargit apparemment à mesure que la tâche s’allonge et se complexifie, ce qui correspond à ce pour quoi ces modèles ont historiquement été les pires.
La vision a également bénéficié d’une véritable mise à niveau. Il peut reconstruire le code source d’une application web à partir de simples captures d’écran, et il a terminé Pokémon Rouge Feu avec une configuration uniquement basée sur la vision, là où les modèles précédents avaient besoin d’une pile d’échafaudages d’assistance pour pouvoir jouer ne serait-ce qu’un peu. Si votre travail touche à la conversion d’interface utilisateur en code, au transfert de conception ou à la lecture d’informations à partir de graphiques et de figures scientifiques, cela vaut le coup d’œil.
Voici la chose que personne ne mettra sur un graphique de lancement. Lorsque les classificateurs de Fable 5 détectent qu’une requête touche à la cybersécurité, à la biologie et à la chimie, ou à la distillation de modèles, votre prompt ne va pas à Fable. Il bascule silencieusement sur Opus 4.8, et vous êtes informé que cela s’est produit.
Anthropic affirme que cela se déclenche dans moins de 5 % des sessions, et que plus de 95 % des sessions ne subissent aucun basculement. Très bien. Mais ils admettent aussi que les classificateurs sont réglés de manière prudente à dessein, ce qui est une façon délicate de dire qu’ils bloqueront des requêtes inoffensives. Si vous faites du travail de sécurité, écrivez quoi que ce soit qui ressemble à des outils offensifs, faites des tests d’intrusion ou travaillez dans la biotechnologie, vous allez heurter ce mur plus souvent que l’utilisateur moyen, et vous le heurterez sur du travail légitime.
J’ai des sentiments mitigés ici, et je ne vais pas prétendre le contraire. Le raisonnement est défendable. Un modèle aussi doué pour trouver des failles est un réel risque de prolifération, et « basculer sur un modèle qui reste excellent » est un mode d’échec bien meilleur qu’un refus pur et simple. Mais des classificateurs prudents signifient que certains d’entre vous paieront une taxe de productivité sur des travaux qui n’ont jamais été dangereux. Prévoyez-le dans votre budget. Si votre flux de travail se situe dans l’une de ces zones, ne concevez pas votre architecture en partant du principe que Fable 5 sera disponible pour chaque appel.
Un dernier détail opérationnel qui aura son importance pour quiconque dans un environnement réglementé : Anthropic exige désormais une conservation des données de 30 jours sur tout le trafic de la classe Mythos, qu’il s’agisse de premières ou de tierces parties. Ils affirment qu’elles ne seront pas utilisées pour l’entraînement et seront supprimées après 30 jours, le but déclaré étant de détecter les nouvelles attaques et les contournements de sécurité (jailbreaks). Si votre posture de conformité supposait une conservation nulle, vérifiez cela avant de connecter Fable à quoi que ce soit qui touche à des données sensibles.
Fable 5 coûte 10 $ par million de tokens en entrée et 50 $ par million de tokens en sortie. C’est presque le double de ce que coûte Opus 4.8. Pour un raisonnement en une seule tentative qui aurait nécessité plusieurs essais avec Opus, le calcul peut encore être avantageux en raison de l’efficacité due à la réduction du nombre de tours. Pour les appels à volume élevé et de faible difficulté, ce n’est presque certainement pas le cas. Routez de manière réfléchie. Il ne s’agit pas d’une mise à niveau du type « remplacer la chaîne de caractères du modèle partout ».
Maintenant, la partie qui va piéger les gens. Le déploiement de l’abonnement est échelonné, et il y a une date butoir. Jusqu’au 22 juin, Fable 5 est inclus dans les forfaits Pro, Max, Team et Enterprise basé sur le nombre d’utilisateurs, sans frais supplémentaires. Le 23 juin, ils le retirent de ces forfaits, et son utilisation nécessitera par la suite des crédits de consommation. Ils disent avoir l’intention de le restaurer en tant que fonctionnalité standard du forfait une fois que la capacité le permettra, sans date ferme.
Donc, si vous l’évaluez avec un abonnement en ce moment, vous êtes dans une fenêtre gratuite qui se ferme dans douze jours. Faites vos tests sérieux avant le 23 juin, ou vous irez le chercher au milieu d’un sprint de développement et le trouverez derrière un mur payant que vous n’aviez pas prévu. Sur l’API et les forfaits Enterprise basés sur la consommation, il est entièrement disponible aujourd’hui sans jeux de fenêtres de disponibilité. La chaîne de caractères du modèle est claude-fable-5.
C’est le modèle le plus performant que vous puissiez avoir entre les mains aujourd’hui, et les gains en codage ainsi que sur les agents à long horizon sont suffisamment réels pour que je ne qualifie pas le battage médiatique de vide cette fois-ci. La refactorisation de masse à la Stripe, les longues exécutions autonomes qui ne dérivent pas, le travail de vision : c’est une étape significative, pas une simple mise à jour mineure.
Mais ce lancement est aussi le signal le plus clair à ce jour que nous sommes entrés dans l’ère où le modèle le plus performant et le modèle que vous êtes autorisé à utiliser ne sont plus la même chose. Fable, c’est Mythos avec une laisse, et la laisse va irriter une véritable part de ce public. C’est un compromis délibéré, fait par une entreprise qui a passé la semaine dernière à avertir publiquement que l’IA de pointe devient dangereuse, et vous devriez interpréter ces mesures de sécurité en considérant qu’ils sont sérieux, plutôt que comme un désagrément temporaire.
Si vous écrivez du code pour gagner votre vie, testez-le cette semaine pendant qu’il est gratuit, acheminez-le par tâche plutôt que par défaut, et surveillez votre taux de basculement vers le modèle de repli. Si vous travaillez dans la sécurité ou la biologie, attendez-vous à des frictions. Et si vous gérez des infrastructures, lisez la politique de conservation des données avant que quiconque dans votre équipe ne s’emballe.
Les capacités ont augmenté. Le nombre d’astérisques aussi. Prévoyez les deux.