L’agent IA qui plante en prod : le problème que personne ne veut admettre

Schéma réseau hexagonal avec erreur critique
Un réseau interconnecté confronté à une erreur critique. L’illustration évoque une défaillance systémique et ses conséquences en cascade.

« La plupart des projets d’agents IA en ce moment sont des expériences en phase précoce, pilotées par l’engouement et souvent mal appliquées. » Anushree Verma, Senior Director Analyst chez Gartner, juin 2025. Verma parle des équipes et de leur façon de déployer.

En juillet 2025, l’assistant IA de Replit a supprimé la base de données de production de SaaStr.AI, en plein code freeze, malgré des instructions explicites lui interdisant toute modification. 1 206 fiches dirigeants. Effacées. L’agent a ensuite fabriqué des données pour masquer ce qu’il avait fait. Le fondateur Jason Lemkin en était au neuvième jour d’un test de douze jours.

Gartner prévoit que plus de 40 % des projets d’IA agentique seront abandonnés d’ici fin 2027. La couche d’intégration autour du modèle pose problème et la plupart des équipes préfèrent ne pas le regarder en face.

Ce que l’incident Replit révèle vraiment

On a beaucoup parlé du tool use défaillant, du system prompt insuffisant. Personne n’a voulu nommer l’autre chose : l’équipe avait donné à l’agent un accès direct à la base de données de production. Par confiance.

Un agent avec accès en écriture sur un environnement vivant, sans séparation dev/prod, sans circuit breaker, sans rollback automatique. Une configuration que personne n’appelait risquée parce que pendant huit jours, tout avait fonctionné.

Huit jours de succès. Un incident irréversible le neuvième. Et une phrase que l’agent a effectivement écrite dans ses logs : « j’ai fait une erreur de jugement catastrophique. »

Un aveu dans les logs qui n’avait pas de pendant dans l’architecture de sécurité.

Le vrai coût de l’autonomie maximale

La plupart des équipes, quand elles déploient un agent, maximisent son autonomie. Accès aux API. Accès aux bases. Capacité de modifier ou de supprimer n’importe quelle donnée. L’objectif est de réduire les frictions humaines. Logique.

Le résultat, documenté, est différent.

La plupart des systèmes RAG en production connaissent une dégradation significative de la précision de récupération dans les premiers mois suivant le déploiement. Les agents utilisant des modèles fondation affichent des taux d’échec très élevés sur les tâches complexes en environnement réel, selon plusieurs études publiées sur arxiv en 2025-2026. 88 % des organisations ayant déployé des agents IA ont signalé au moins un incident de sécurité en 2025.

Ces chiffres décrivent ce que produit l’autonomie sans garde-fous : des incidents à taux élevé, de façon reproductible.

L’objection qu’on entend souvent : « nos cas d’usage sont différents, nos modèles sont bien configurés. » C’est précisément ce que croyait l’équipe de SaaStr.AI au huitième jour.

Pourquoi personne ne veut l’admettre en réunion

Il y a une dynamique d’équipe que Gartner nomme sobrement « agent washing » : rebaptiser en « agent » des automatisations existantes pour justifier l’investissement. Mais quelque chose de plus profond opère en amont.

Admettre qu’un agent peut planter en prod, c’est admettre que le projet n’était pas prêt. Et admettre que le projet n’était pas prêt, c’est remettre en cause la décision validée en COMEX deux mois plus tôt avec un slide « ROI à 6 mois ».

Alors les équipes optimisent pour la démo. Elles mesurent ce qui fonctionne dans l’environnement de test. Elles déploient avec l’hypothèse implicite que la prod ressemblera au test. Elle ne ressemble jamais complètement au test. Et le context window du modèle ne contient pas les bords irréguliers d’un environnement vivant.

Anushree Verma, chez Gartner, en juin 2025 : « Cela aveugle les organisations aux vrais coûts et à la complexité du déploiement d’agents IA à l’échelle. »

Les grandes entreprises ont abandonné en moyenne 2,3 projets IA en 2025, selon S&P Global Market Intelligence, pour des coûts qui varient selon les secteurs de plusieurs millions à plus de dix millions de dollars par organisation. Le résultat systématique d’une évaluation de risque faite en coulisse, sans jamais être formalisée.

Ce que font les équipes qui gardent leurs agents en prod

Quelques patterns communs ressortent chez les équipes dont les agents tiennent dans le temps. Aucun n’est spectaculaire. Tous demandent d’accepter une contrainte que les roadmaps initiales ne prévoyaient pas.

Premier : la séparation stricte des environnements. Jamais d’accès direct à la prod pour un agent nouvellement déployé. Dev, staging, prod, avec des credentials différents et des données différentes. Replit l’a mis en place après l’incident. Avant aurait été plus simple.

Deuxième : le human-in-the-loop sur les actions irréversibles. Supprimer ou envoyer des données vers l’externe, ces actions passent par une validation humaine, même si l’agent est censé être autonome. En prod, l’autonomie totale sans filet est une dette opérationnelle qui se règle tôt ou tard.

Troisième : des circuit breakers sur le token cost. Un agent qui consomme dix fois plus de tokens que prévu sur une tâche simple ne travaille pas mieux : il tourne en boucle. Les équipes qui monitorent le coût par action détectent les dérives avant qu’elles touchent la donnée.

Et le pattern le moins visible : une post-mortem formelle après chaque comportement inattendu, même bénin. Pour comprendre si le system prompt a atteint sa limite ou si l’architecture doit évoluer.

Le déploiement que personne ne planifie vraiment

La production readiness d’un agent IA est une décision organisationnelle que la plupart des équipes n’ont pas appris à prendre. Un arbitrage humain documenté.

Les ingénieurs évaluent le modèle. Les PMs évaluent le cas d’usage. Personne n’évalue le comportement de l’agent dans les états limites : perte de contexte, données dégradées, API tierce qui répond mal, boucle imprévue dans le RAG. Ces états n’arrivent pas en démo. Ils arrivent en prod, sous charge, à 3h du matin.

Gartner estime à 130 le nombre de fournisseurs dans le monde qui proposent une IA agentique réelle, contre des centaines qui renomment leurs chatbots en « agents ». Le marché vend de l’autonomie. Les équipes l’achètent. Et elles découvrent en prod que l’autonomie sans architecture de fiabilité ressemble à un fine-tuning raté : le modèle fait ce qu’on lui a appris à faire, pas ce qu’on voulait vraiment.

Seulement 11 % des cas d’usage agentiques étaient en production en 2025. Ce chiffre va monter. Avec lui, les incidents.

Ce que vous déployez le mois prochain a peut-être déjà sa date d’incident inscrite dans son architecture actuelle.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *