Dans notre secteur, tout le monde publie ses succès. Nous allons vous parler d'un échec. Notre premier déploiement RAG en production a été arrêté après 6 semaines. Voici ce qui s'est passé, pourquoi, et comment nous avons tout reconstruit correctement la fois suivante.

Le contexte : trop de confiance, pas assez de rigueur

Le projet : un assistant IA pour une équipe support technique d'une entreprise industrielle. 4 000 pages de documentation technique, manuels, FAQ et procédures. Objectif : que les techniciens puissent poser des questions en langage naturel et obtenir des réponses précises.

Nous avions déjà fait du RAG en interne. Nous étions confiants. Trop confiants. C'est là que tout a commencé.

Debugging d'un système RAG
Identifier les points de défaillance dans un pipeline RAG complexe
6 sem.
avant l'arrêt du premier déploiement
3 erreurs
systémiques identifiées post-mortem
V2 déployée
en 4 semaines avec un taux de satisfaction de 87%

Erreur 1 : la qualité des données d'abord

Nous avons indexé les 4 000 pages directement, sans pré-traitement. Résultat : des documents scannés avec une reconnaissance de caractères médiocre, des tables mal parsées, des schémas techniques sans contexte textuel. Le retrieval récupérait des chunks incoherents.

La leçon : avant d'indexer, vérifiez la qualité de chaque source. Un document mal parsé corrompt tout le contexte autour de lui. Nous avons depuis mis en place une étape systématique de quality check avant toute indexation.

Erreur 2 : le chunking par défaut

Nous avons utilisé le chunking par défaut de LangChain : 1000 caractères avec 200 de chevauchement. Pour de la documentation technique avec des procédures en 15 étapes, c'était catastrophique. Une procédure était souvent coupée en plein milieu d'une étape critique.

La règle qu'on a apprise : le chunking doit être pensé selon la structure sémantique du document, pas selon un nombre de caractères arbitraire. Pour de la documentation technique : chunkez par section ou par procédure complète.

Erreur 3 : aucune évaluation systématique

Nous avons évalué le système sur 20 questions manuelles pendant le développement. En production, les techniciens posaient 300 questions très différentes par jour. Sans système d'évaluation automatique et de monitoring des réponses incorrectes, nous n'avons pas vu la dégradation arriver.

La version 2 : ce qu'on a changé

V2 : pré-traitement complet des documents (OCR amélioré, nettoyage HTML, extraction structurée des tables), chunking sémantique par section de procédure, évaluation automatique avec RAGAS sur un golden dataset de 200 questions, monitoring en production avec Langfuse.

Résultat de V2 après 4 semaines : taux de satisfaction de 87%, 91% des questions techniques répondues correctement, 0 arrêt de production.

RAG LangChain Chunking Évaluation Post-mortem Expérience

Avec toute mon attention,

Sylvie Wendkuni NITIEMA
Fondatrice & Data Scientist · DataSAI