Statistique ou machine learning faut-il les opposer ?

C’est un débat « presque » ancien qui mérite d’être regardé avec un œil neuf. La Data Science, (comme le Big Data), est un domaine en constante évolution, dont les applications notamment en connaissance client ou en marketing ne sont plus à démontrer.

Statistique et machine learning à l’ère de la Data Science et de la connaissance client

Même si le domaine d’application est certes récent, les méthodes de base employées en Data Science datent maintenant pour la plupart d’une bonne quarantaine d’années. On peut rappeler que les deux branches principalement concernées sont la statistique d’une part et le machine learning d’autre part, à laquelle j’ajouterai une troisième branche constituée de ce que l’on pourrait appeler « les ontologies métier » en tant « qu’ensemble structuré des termes et concepts représentant un savoir faire métier ou un domaine d’application » (Wikipédia). Ces ontologies permettent de décliner ce savoir-faire métier selon deux axes :

  • Un axe dictionnaire des données et concepts propres à ce métier
  • Un axe de capitalisation sur les processus et les modes opératoires de ce métier

Nous entendons que çà et là, d’aucuns cherchent à comparer l’efficacité, le ROI et le coût de la démarche statistique versus celle du machine learning dans les applications prédictives (notamment en marketing prédictif, marketing digital, en connaissance client, etc.).

L’origine du débat

intelligence artificielle

L’intelligence artificielle

Le débat n’est pas récent, dans la mesure où les deux « écoles » viennent de deux courants de pensées différents. Le « machine learning », qu’on appelle parfois aussi « intelligence artificielle » est né sur le postulat qu’on peut compter sur la force calculatoire sans cesse croissante des ordinateurs pour modéliser un phénomène donné. La statistique quant à elle constitue une branche spécialisée des mathématiques qui peut donc exister au moins théoriquement indépendamment des ordinateurs.

La statistique voit d’ailleurs sa première origine remonter sous Louis XIV, qui voulait comptabiliser les différents métiers existants en France (dans le mot statistique vous retrouvez en effet la racine du mot état, ou science de l’état). Elle s’est également elle-même ensuite divisée en plusieurs écoles notamment l’école Française, l’école Anglo-saxonne et l’école Russe.

Aujourd’hui, et après une évolution impressionnante, les trois écoles de statistique convergent plus ou moins sur les points clés, et toutes les trois bénéficient de l’accroissement exponentiel de la puissance des ordinateurs suivant la fameuse loi de Moore pour leur mise en application sous forme d’algorithmes programmés de plus en plus performants.

Sans chercher à faire du chauvinisme, l’école Française (qu’on appelle parfois « statistique à la française ») reste certainement une des plus avancées au monde, a minima dans le tissu éducatif et universitaire.

Un peu de théorie

Le fait qu’on puisse utiliser des algorithmes pour prédire un phénomène tel qu’un comportement d’un groupe de clients reste assez spectaculaire et mystérieux pour beaucoup de gens. En fait cela n’est pas aussi mystérieux qu’il y parait. Il suffit de disposer d’un ensemble de variables caractérisant le phénomène dans un certain nombre d’observations réelles, ainsi qu’une variable qui à chaque fois décrit le résultat sous la forme d’une valeur logique, catégorielle ou numérique. On cherche alors à établir un lien (ou un modèle) entre la variable de sortie (ou variable à prédire) et les variables d’entrées (ou variables prédictives).

La statistique prédictive

La statistique prédictive

En simplifiant l’exercice a l’extrême, l’opération repose sur l’utilisation des statistiques et/ou du machine learning à condition de connaître au départ le résultat de la variable à prédire sur un certain nombre limité d’observations ou de cas, qu’on appelle alors « échantillon d’apprentissage ». L’analyse de l’ajustement du modèle obtenu aux données d’observation nous permet d’évaluer la précision du modèle par rapport à cet échantillon d’apprentissage.

L’étape suivante consiste à valider le modèle prédictif obtenu sur un autre échantillon dit « de test ». Cette démarche permet de valider la robustesse (la fiabilité) du modèle issu de l’échantillon d’apprentissage.

Cela suppose bien entendu de disposer d’une assez bonne qualité de données, d’une infrastructure informatique pouvant supporter le traitement des données, d’un outil logiciel (qu’il soit orienté plutôt statistique et/ou machine learning), et bien sûr, d’une personne incontournable appelée en général « Data Scientist », qui s’appuiera sur une démarche (de type CRISP-DM – Cross Industry Standard Process for Data Mining) pour assurer un cadrage logique du projet.

L’explication

Le chant des sirènes que l’on entend souvent sur le marché, induirait que les solutions de machine learning seraient désormais capables de faire le travail presque toutes seules, sans la présence d’un spécialiste pour les paramétrer, et avec de surcroît de biens meilleurs résultats qu’avec la démarche décrite dans le paragraphe plus haut.

Le fait est qu’il existe aujourd’hui à peu près autant de méthodes de machine learning disponibles que de méthodes statistiques. L’expérience montre cependant invariablement que les meilleurs résultats sont obtenus lorsqu’on combine les deux démarches. Le discours opposant les deux approches est donc relativement vain. En réalité, la statistique et le machine learning sont complémentaires.

Cela se comprend si on dit que pour pouvoir avoir une démarche prédictive (prédire un état futur à partir d’un état présent), il faut au préalable avoir une démarche explicative (expliquer un état présent avec un état passé), et qu’avant d’avoir une démarche explicative, il faut avoir une démarche descriptive (expliquer les liens et les corrélations entre les différentes variables), voire mettre en œuvre une ontologie du métier en question.

La statistique (couplée ou non à une ontologie) est capable aujourd’hui de donner à coup sûr un véritable sens « métier » aux données de manière descriptive et explicative.

Conclusion

Peut-on dans l’absolu se passer de cette démarche descriptive et explicative (donc statistique voire ontologique) et appliquer directement du machine learning sur les données pour prédire un phénomène ?

Théoriquement, et bien que ce soit informatiquement possible, j’ai tendance à le déconseiller. En effet, la facilité d’utilisation de ces méthodes, largement évoquée par les aficionados du « Tout Machine Learning », peut laisser croire que des non statisticiens seraient à même de les utiliser. Il n’en est rien.

La robustesse et la précision d’un modèle purement « machine learning » ne garantit nullement qu’il fasse du sens d’un point de vue métier (ce que seule la statistique peut garantir).

Quand bien même le résultat initial de ces méthodes automatiques serait irréprochable d’un point de vue métier, un utilisateur non averti ne sera pas forcément en mesure d’évaluer la dégradation du modèle dans le temps due à l’arrivée de nouvelles populations de clients ou de nouvelles observations à intégrer.

Le machine learning constitue un ensemble incontournable d’algorithmes donnant de bons résultats en personnalisation, en ciblage de campagnes, etc. Mais ces résultats seront d’autant plus performants, robustes et précis, que le machine learning s’appuie sur des résultats intermédiaires statistiques comme des typologies, des scores d’appétence, etc. réalisés dans les règles de l’art.

 

En résumé, machine learning et statistiques ne sont pas en quelque sorte des méthodes concurrentes mais bien des méthodes complémentaires. Les meilleurs résultats en marketing et en connaissance client seront donc obtenus en combinant les deux types d’approches

 

Didier Gaultier avec la participation de Serge Krywyk.

 

  • A propos
  • Derniers articles

Didier Gaultier

Directeur DataScience à Business & Decision

Data Scientist - Directeur de l'offre Data Science & Connaissance Client chez Business & Decision, Enseignant en Data Mining & Statistiques appliquées au Marketing à l'EPF et l'ESCP-Europe.

4 Comments

Rétroliens pour ce billet

  1. […] l’écosystème autour du Big Data. Il combine des notions théoriques relatives notamment à la statistique, au calcul distribué, à la valorisation, tout en abordant celles des outils actuels, en exposant […]

  2. […] Elevés hier sur des marchés et des médias ingrats qui leur remontaient des données peu nombreuses, lentes et complexes à collecter, ils avaient l’habitude de se fier à leur intuition. Aujourd’hui submergés par une masse de données colossale, ils se sont ouverts aux joies des stat… […]

  3. […] un nouvel essor à l’ère du Big Data. On parle alors de Data Science et des techniques de Data Mining et de Machine Learning. L’objectif est là de parvenir à mieux comprendre ce qu’il se passe (statistiques […]

  4. […] dans le but de la rendre actionnable par les métiers, en s’appuyant principalement sur la Statistique, le Machine Learning et l’Intelligence artificielle (I.A.), et en utilisant des techniques qui ne […]

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*