Dans notre secteur, tout le monde publie ses succès. Nous allons vous parler d'un échec. Notre premier déploiement RAG en production a été arrêté après 6 semaines. Voici ce qui s'est passé, pourquoi, et comment nous avons tout reconstruit correctement la fois suivante.
Le contexte : trop de confiance, pas assez de rigueur
Le projet : un assistant IA pour une équipe support technique d'une entreprise industrielle. 4 000 pages de documentation technique, manuels, FAQ et procédures. Objectif : que les techniciens puissent poser des questions en langage naturel et obtenir des réponses précises.
Nous avions déjà fait du RAG en interne. Nous étions confiants. Trop confiants. C'est là que tout a commencé.
Erreur 1 : la qualité des données d'abord
Nous avons indexé les 4 000 pages directement, sans pré-traitement. Résultat : des documents scannés avec une reconnaissance de caractères médiocre, des tables mal parsées, des schémas techniques sans contexte textuel. Le retrieval récupérait des chunks incoherents.
La leçon : avant d'indexer, vérifiez la qualité de chaque source. Un document mal parsé corrompt tout le contexte autour de lui. Nous avons depuis mis en place une étape systématique de quality check avant toute indexation.
Erreur 2 : le chunking par défaut
Nous avons utilisé le chunking par défaut de LangChain : 1000 caractères avec 200 de chevauchement. Pour de la documentation technique avec des procédures en 15 étapes, c'était catastrophique. Une procédure était souvent coupée en plein milieu d'une étape critique.
La règle qu'on a apprise : le chunking doit être pensé selon la structure sémantique du document, pas selon un nombre de caractères arbitraire. Pour de la documentation technique : chunkez par section ou par procédure complète.
Erreur 3 : aucune évaluation systématique
Nous avons évalué le système sur 20 questions manuelles pendant le développement. En production, les techniciens posaient 300 questions très différentes par jour. Sans système d'évaluation automatique et de monitoring des réponses incorrectes, nous n'avons pas vu la dégradation arriver.
La version 2 : ce qu'on a changé
V2 : pré-traitement complet des documents (OCR amélioré, nettoyage HTML, extraction structurée des tables), chunking sémantique par section de procédure, évaluation automatique avec RAGAS sur un golden dataset de 200 questions, monitoring en production avec Langfuse.
Résultat de V2 après 4 semaines : taux de satisfaction de 87%, 91% des questions techniques répondues correctement, 0 arrêt de production.
Avec toute mon attention,
Article très complet et ancré dans la réalité du terrain. On retrouve exactement les mêmes patterns chez nos clients. La partie sur les coûts d'inférence est particulièrement précieuse, c'est un sujet que peu d'articles abordent franchement.
Merci Thomas ! Effectivement, l'optimisation des coûts est souvent négligée en phase de prototypage mais devient critique en production. N'hésitez pas à nous contacter si vous voulez approfondir ce point.
Je partage cet article à toute mon équipe. La distinction entre « démo impressionnante » et « production robuste » est exactement le débat qu'on a en ce moment en interne. Le conseil sur les human checkpoints est actionnable immédiatement.
Très bon article. Je nuancerais sur le délai de 18 jours pour déployer un premier agent, dans mon expérience c'est plus proche de 4 à 6 semaines quand on intègre vraiment les contraintes de sécurité et de RGPD.
Remarque tout à fait juste Marc. Les 18 jours correspondent à un premier agent en environnement de test ou pour un cas d'usage bien délimité. En production avec toutes les contraintes enterprise, votre estimation est réaliste.