Un groupe retail français avec 80 points de vente, une infrastructure data coûteuse, des pipelines fragiles et des équipes qui ne font plus confiance à leurs tableaux de bord. En 4 mois, nous avons réduit les coûts de 40% et restauré la confiance dans la data.
Le contexte : une dette technique data critique
Quand ce client nous a contactés, la situation était symptomatique de beaucoup d'entreprises qui ont grandi vite : un entrepôt de données historique OnPremise, une dizaine de pipelines ETL mal documentés, des données dupliquées dans plusieurs silos, et une facture cloud qui avait triplé en 18 mois sans gain de valeur visible.
La direction technique savait que quelque chose n'allait pas, mais ne savait pas par où commencer. Notre première action a été un audit exhaustif de 2 semaines.
La démarche : audit, priorisation, migration
Semaines 1–2 : Audit et cartographie
Inventaire complet de l'existant : sources de données, volumes, fréquences, coûts par pipeline, qualité des données, usages réels vs usages déclarés.
Semaines 3–4 : Architecture cible & feuille de route
Définition de l'architecture moderne (lakehouse sur Databricks), priorisation des migrations selon l'impact business et le risque technique.
Mois 2 : Migration des pipelines critiques
Réécriture des 5 pipelines les plus coûteux en dbt + Spark, avec monitoring intégré. Réduction immédiate de 25% des coûts de compute.
Mois 3–4 : Gouvernance data & outillage
Mise en place du data catalog (DataHub), des règles de qualité (Great Expectations), et du monitoring end-to-end (Monte Carlo).
Les leviers de réduction des coûts
1. Supprimer les pipelines zombies
L'audit a révélé que 31% des pipelines ETL produisaient des données que personne ne consommait. Des jobs qui tournaient toutes les heures, 24h/24, pour alimenter des dashboards que les équipes avaient cessé de consulter depuis des mois. Arrêt immédiat : -12% de coûts.
2. Optimiser les requêtes et le partitionnement
Des requêtes BigQuery qui scannaient des tables entières à chaque exécution, sans partitionnement ni clustering. La refonte du schéma et l'ajout de partitionnement par date ont divisé les coûts de requêtage par 6 sur les tables les plus volumineuses.
3. Rationaliser les environnements
Trois environnements de dev/staging qui répliquaient l'intégralité des données de production. Nous avons mis en place un système d'échantillonnage intelligent qui réduit le volume de 95% tout en conservant la représentativité statistique.
La leçon la plus précieuse : dans tous nos projets data, nous trouvons en moyenne 25 à 35% de ressources gaspillées sur des pipelines ou des environnements inutiles. L'audit est toujours rentabilisé en quelques semaines.
Ce que les équipes en pensent aujourd'hui
Quatre mois après la fin du projet, le directeur technique nous a partagé un indicateur inattendu : le nombre de questions "d'où vient cette donnée ?" en réunion a chuté de 80%. Les équipes font à nouveau confiance à leurs dashboards. C'est le vrai signe du succès.
Avec toute mon attention,
En tant que CDO d'un groupe retail, cet article résonne énormément. La stat sur les pipelines zombies (31%) est cohérente avec ce qu'on a découvert lors de notre propre audit. Ravi de voir que nous ne sommes pas les seuls !
Merci pour ce retour Isabelle ! C'est effectivement une constante qu'on observe chez presque tous nos clients retail. Si vous souhaitez échanger sur vos défis actuels, n'hésitez pas à prendre un RDV.
Cas d'usage très parlant et bien documenté. La timeline sur 4 mois est réaliste et l'approche par phases est la bonne. Ce qui m'a le plus surpris : le -12% immédiat rien qu'en arrêtant les pipelines inutiles. Simple mais puissant.
Article instructif. Question pratique : comment gérez-vous la résistance des équipes lors de la migration vers une nouvelle architecture ? C'est souvent le plus grand obstacle dans ce type de projet.
Excellente question Amira. La clé est d'impliquer les équipes dès la phase d'audit, elles deviennent alors parties prenantes du changement plutôt que victimes. On en parle dans notre prochain article sur la gestion du changement data !