Un groupe retail français avec 80 points de vente, une infrastructure data coûteuse, des pipelines fragiles et des équipes qui ne font plus confiance à leurs tableaux de bord. En 4 mois, nous avons réduit les coûts de 40% et restauré la confiance dans la data.

Le contexte : une dette technique data critique

Quand ce client nous a contactés, la situation était symptomatique de beaucoup d'entreprises qui ont grandi vite : un entrepôt de données historique OnPremise, une dizaine de pipelines ETL mal documentés, des données dupliquées dans plusieurs silos, et une facture cloud qui avait triplé en 18 mois sans gain de valeur visible.

La direction technique savait que quelque chose n'allait pas, mais ne savait pas par où commencer. Notre première action a été un audit exhaustif de 2 semaines.

40%
réduction des coûts data en 4 mois
12×
amélioration de la fraîcheur des données
3
silos data consolidés en une source unique

La démarche : audit, priorisation, migration

S1

Semaines 1–2 : Audit et cartographie

Inventaire complet de l'existant : sources de données, volumes, fréquences, coûts par pipeline, qualité des données, usages réels vs usages déclarés.

S3

Semaines 3–4 : Architecture cible & feuille de route

Définition de l'architecture moderne (lakehouse sur Databricks), priorisation des migrations selon l'impact business et le risque technique.

M2

Mois 2 : Migration des pipelines critiques

Réécriture des 5 pipelines les plus coûteux en dbt + Spark, avec monitoring intégré. Réduction immédiate de 25% des coûts de compute.

M3

Mois 3–4 : Gouvernance data & outillage

Mise en place du data catalog (DataHub), des règles de qualité (Great Expectations), et du monitoring end-to-end (Monte Carlo).

Les leviers de réduction des coûts

1. Supprimer les pipelines zombies

L'audit a révélé que 31% des pipelines ETL produisaient des données que personne ne consommait. Des jobs qui tournaient toutes les heures, 24h/24, pour alimenter des dashboards que les équipes avaient cessé de consulter depuis des mois. Arrêt immédiat : -12% de coûts.

2. Optimiser les requêtes et le partitionnement

Des requêtes BigQuery qui scannaient des tables entières à chaque exécution, sans partitionnement ni clustering. La refonte du schéma et l'ajout de partitionnement par date ont divisé les coûts de requêtage par 6 sur les tables les plus volumineuses.

3. Rationaliser les environnements

Trois environnements de dev/staging qui répliquaient l'intégralité des données de production. Nous avons mis en place un système d'échantillonnage intelligent qui réduit le volume de 95% tout en conservant la représentativité statistique.

La leçon la plus précieuse : dans tous nos projets data, nous trouvons en moyenne 25 à 35% de ressources gaspillées sur des pipelines ou des environnements inutiles. L'audit est toujours rentabilisé en quelques semaines.

Ce que les équipes en pensent aujourd'hui

Quatre mois après la fin du projet, le directeur technique nous a partagé un indicateur inattendu : le nombre de questions "d'où vient cette donnée ?" en réunion a chuté de 80%. Les équipes font à nouveau confiance à leurs dashboards. C'est le vrai signe du succès.

Data Engineering Retail Optimisation dbt Databricks Gouvernance ROI

Avec toute mon attention,

Sylvie Wendkuni NITIEMA
Fondatrice & Data Scientist · DataSAI