La question revient dans chaque projet data : faut-il utiliser une régression économétrique classique ou un modèle de machine learning ? La réponse n'est pas "le ML est toujours mieux". Voici notre cadre de décision basé sur des années de projets en entreprise.

Pourquoi cette question est importante

Dans la pratique, choisir le mauvais type de modèle coûte cher. Un modèle ML complexe sur un dataset de 500 lignes sera instable et ingérable. Une régression linéaire sur un problème avec 50 variables non-linéaires sera biaisée et inutilisable.

La règle d'or : la complexité du modèle doit être proportionnelle à la complexité du problème ET à la quantité de données disponibles.

Matrice de décision économétrie vs ML
Quand choisir l'économétrie, le ML supervisé ou le ML non-supervisé
70%
des cas d'usage en entreprise ne nécessitent pas de ML
3 critères
pour choisir entre économétrie et ML
plus explicable : l'économétrie sur les décisions critiques

Quand l'économétrie gagne

Vous devez expliquer et défendre vos résultats

En finance, en santé, en juridique : vous devez être capable d'expliquer pourquoi le modèle prend telle décision. Une régression logistique avec des coefficients interprétables est infiniment plus défendable devant un régulateur ou un comité qu'un gradient boosting avec 500 arbres.

Vous avez peu de données

Avec moins de 1000 observations, les modèles ML ont tendance à sur-apprendre. Un modèle économétrique bien spécifié, avec de bonnes hypothèses sur la structure des données, donnera de meilleurs résultats hors-échantillon.

Vous faites de l'inférence causale

Si vous voulez répondre à "quel est l'effet d'une augmentation de prix de 10% sur les ventes ?", c'est une question causale. L'économétrie, avec ses outils de variables instrumentales et de différences-en-différences, est conçue pour ça. Le ML prédit, il n'explique pas la causalité.

Quand le ML gagne

Données massives et non-structurées : texte, images, comportements web. Patterns très non-linéaires sans hypothèses fortes sur la structure. Prédiction pure où l'interprétabilité n'est pas critique. Séries temporelles complexes avec des centaines de variables.

Notre approche hybride : nous démarrons souvent par un modèle économétrique pour comprendre les relations clés, puis nous passons au ML pour améliorer la précision prédictive. Les deux sont complémentaires, pas rivaux.

Les modèles hybrides : le meilleur des deux mondes

Les modèles SHAP (SHapley Additive exPlanations) permettent d'expliquer n'importe quel modèle ML en termes de contributions variables. Vous gardez la puissance prédictive du ML avec une interprétabilité proche de l'économétrie.

Économétrie Machine Learning Modélisation Régression Data Science Causalité

Avec toute mon attention,

Sylvie Wendkuni NITIEMA
Fondatrice & Data Scientist · DataSAI