Accueil > Data Science / IA > Intégrer l'IA et la Data Science > Statistique ou Machine Learning, faut-il les opposer ?

Intégrer l'IA et la Data Science

Statistique ou Machine Learning, faut-il les opposer ?

3 février 2015 Modifié le 20 avril 2023

C’est un débat « presque » ancien qui mérite d’être regardé avec un œil neuf. La Data Science, (comme le Big Data), est un domaine en constante évolution, dont les applications notamment en connaissance client ou en marketing ne sont plus à démontrer.

Statistique ou Machine Learning, faut-il les opposer ?

Statistique et machine learning à l’ère de la Data Science et de la connaissance client

Même si le domaine d’application est certes récent, les méthodes de base employées en Data Science datent maintenant pour la plupart d’une bonne quarantaine d’années. On peut rappeler que les deux branches principalement concernées sont la statistique d’une part et le machine learning d’autre part, à laquelle j’ajouterai une troisième branche constituée de ce que l’on pourrait appeler « les ontologies métier » en tant « qu’ensemble structuré des termes et concepts représentant un savoir faire métier ou un domaine d’application » (Wikipédia). Ces ontologies permettent de décliner ce savoir-faire métier selon deux axes :

Un axe dictionnaire des données et concepts propres à ce métier
Un axe de capitalisation sur les processus et les modes opératoires de ce métier

Nous entendons que çà et là, d’aucuns cherchent à comparer l’efficacité, le ROI et le coût de la démarche statistique versus celle du machine learning dans les applications prédictives (notamment en marketing prédictif, Digital Marketing, en connaissance client, etc.).

L’origine du débat

Le débat n’est pas récent, dans la mesure où les deux « écoles » viennent de deux courants de pensées différents. Le « machine learning », qu’on appelle parfois aussi « intelligence artificielle » est né sur le postulat qu’on peut compter sur la force calculatoire sans cesse croissante des ordinateurs pour modéliser un phénomène donné. La statistique quant à elle constitue une branche spécialisée des mathématiques qui peut donc exister au moins théoriquement indépendamment des ordinateurs.

La statistique voit d’ailleurs sa première origine remonter sous Louis XIV, qui voulait comptabiliser les différents métiers existants en France (dans le mot statistique vous retrouvez en effet la racine du mot état, ou science de l’état). Elle s’est également elle-même ensuite divisée en plusieurs écoles notamment l’école Française, l’école Anglo-saxonne et l’école Russe.

Aujourd’hui, et après une évolution impressionnante, les trois écoles de statistique convergent plus ou moins sur les points clés, et toutes les trois bénéficient de l’accroissement exponentiel de la puissance des ordinateurs suivant la fameuse loi de Moore pour leur mise en application sous forme d’algorithmes programmés de plus en plus performants.

Sans chercher à faire du chauvinisme, l’école Française (qu’on appelle parfois « statistique à la française ») reste certainement une des plus avancées au monde, a minima dans le tissu éducatif et universitaire.

Un peu de théorie

Le fait qu’on puisse utiliser des algorithmes pour prédire un phénomène tel qu’un comportement d’un groupe de clients reste assez spectaculaire et mystérieux pour beaucoup de gens. En fait cela n’est pas aussi mystérieux qu’il y parait. Il suffit de disposer d’un ensemble de variables caractérisant le phénomène dans un certain nombre d’observations réelles, ainsi qu’une variable qui à chaque fois décrit le résultat sous la forme d’une valeur logique, catégorielle ou numérique. On cherche alors à établir un lien (ou un modèle) entre la variable de sortie (ou variable à prédire) et les variables d’entrées (ou variables prédictives).

En simplifiant l’exercice à l’extrême, l’opération repose sur l’utilisation des statistiques et/ou du Machine Learning à condition de connaître au départ le résultat de la variable à prédire sur un certain nombre limité d’observations ou de cas, qu’on appelle alors « échantillon d’apprentissage ». L’analyse de l’ajustement du modèle obtenu aux données d’observation nous permet d’évaluer la précision du modèle par rapport à cet échantillon d’apprentissage.

L’étape suivante consiste à valider le modèle prédictif obtenu sur un autre échantillon dit « de test ». Cette démarche permet de valider la robustesse (la fiabilité) du modèle issu de l’échantillon d’apprentissage.

Cela suppose bien entendu de disposer d’une assez bonne qualité de données, d’une infrastructure informatique pouvant supporter le traitement des données, d’un outil logiciel (qu’il soit orienté plutôt statistique et/ou machine learning), et bien sûr, d’une personne incontournable appelée en général « Data Scientist », qui s’appuiera sur une démarche (de type CRISP-DM – Cross Industry Standard Process for Data Mining) pour assurer un cadrage logique du projet.

L’explication

Le chant des sirènes que l’on entend souvent sur le marché, induirait que les solutions de machine learning seraient désormais capables de faire le travail presque toutes seules, sans la présence d’un spécialiste pour les paramétrer, et avec de surcroît de biens meilleurs résultats qu’avec la démarche décrite dans le paragraphe plus haut.

Le fait est qu’il existe aujourd’hui à peu près autant de méthodes de machine learning disponibles que de méthodes statistiques. L’expérience montre cependant invariablement que les meilleurs résultats sont obtenus lorsqu’on combine les deux démarches. Le discours opposant les deux approches est donc relativement vain. En réalité, la statistique et le machine learning sont complémentaires.

Cela se comprend si on dit que pour pouvoir avoir une démarche prédictive (prédire un état futur à partir d’un état présent), il faut au préalable avoir une démarche explicative (expliquer un état présent avec un état passé), et qu’avant d’avoir une démarche explicative, il faut avoir une démarche descriptive (expliquer les liens et les corrélations entre les différentes variables), voire mettre en œuvre une ontologie du métier en question.

La statistique (couplée ou non à une ontologie) est capable aujourd’hui de donner à coup sûr un véritable sens « métier » aux données de manière descriptive et explicative.

Conclusion

Peut-on dans l’absolu se passer de cette démarche descriptive et explicative (donc statistique voire ontologique) et appliquer directement du machine learning sur les données pour prédire un phénomène ?

Théoriquement, et bien que ce soit informatiquement possible, j’ai tendance à le déconseiller. En effet, la facilité d’utilisation de ces méthodes, largement évoquée par les aficionados du « Tout Machine Learning », peut laisser croire que des non statisticiens seraient à même de les utiliser. Il n’en est rien.

La robustesse et la précision d’un modèle purement « machine learning » ne garantit nullement qu’il fasse du sens d’un point de vue métier (ce que seule la statistique peut garantir).

Quand bien même le résultat initial de ces méthodes automatiques serait irréprochable d’un point de vue métier, un utilisateur non averti ne sera pas forcément en mesure d’évaluer la dégradation du modèle dans le temps due à l’arrivée de nouvelles populations de clients ou de nouvelles observations à intégrer.

Le machine learning constitue un ensemble incontournable d’algorithmes donnant de bons résultats en personnalisation, en ciblage de campagnes, etc. Mais ces résultats seront d’autant plus performants, robustes et précis, que le machine learning s’appuie sur des résultats intermédiaires statistiques comme des typologies, des scores d’appétence, etc. réalisés dans les règles de l’art.

En résumé, machine learning et statistiques ne sont pas en quelque sorte des méthodes concurrentes mais bien des méthodes complémentaires. Les meilleurs résultats en marketing et en connaissance client (CRM) seront donc obtenus en combinant les deux types d’approches.

Didier Gaultier avec la participation de Serge Krywyk.

Directeur Data Science & IA Business & Decision

Data Scientist – Directeur Data Science & IA de Business & Decision, et professeur de Data Science à l’EPF. Directeur pédagogique de l’Ecole de la Data de Business & Decision.

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Premium

Parcours client

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

La région Bretagne a développé son projet de relation usager avec Orange et a présenté lors d’une conférence dédiée avec les experts Orange Business comment ce projet a été préparé....

Tutoriels outils et langages data

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

« J’ai le plaisir de vous annoncer que j’ai obtenu une nouvelle certification XX (insérer ici un éditeur ;) ) » est devenu un post récurent sur les réseaux sociaux comme LinkedIn....

Actualités Data et IA

Revue de presse Data & IA – Mars 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : le Parlement européen adopte l'AI...

Premium

Solutions technologiques

REPLAY | Cdiscount : les recettes Data & IA du leader e-commerce

Cdiscount a placé la data et les IA au cœur de sa stratégie. Analytique, Intelligence Artificielle, Data Mesh, Big Data, Data Cloud, la démarche du leader e-commerce s'est construit au...

Tendances Data

JO : Les athlètes françaises sont-elles meilleures que leurs homologues masculins ? Réponse en Dataviz

Qui n'a pas déjà vécu des débats enflammés, sur des sujets variés du quotidien ou d’actualité, lors de repas du dimanche en famille ? Des discussions où chacun avance des affirmations...

Actualités Data et IA

Revue de presse Data & IA – Février 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : OpenAI dévoile son nouveau modèle...

Premium

Solutions technologiques

REPLAY | Optimiser, gérer et contrôler ses coûts avec la Plateforme Data Cloud Snowflake

Comment les entreprises peuvent-elles optimiser leurs coûts dans un contexte de besoin d’analyses toujours plus important ? Réponses avec le retour d’expérience de Peaksys, filiale Tech de Cdiscount, présenté lors Data...

IoT et objets connectés

[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Etape 2 : la donnée en temps réel, du capteur au Dashboard

Dans un précédent article, nous vous présentions notre projet Data Rider, le circuit de voiture électrique amélioré de capteurs en tout genre visant à collecter les données des voitures en...

Comprendre l'IA et la Data Science

RAG : Enrichir les IA génératives avec les données de l'entreprise

RAG est l’acronyme incontournable pour tous ceux qui veulent créer de la valeur avec les iA génératives sur les données de leur organisation. Retour sur ce concept-clé et sur les...

Premium

Tendances Data

REPLAY | Data / IA : nos experts décryptent les 7 sujets chauds pour 2024

Nous vous présentons pour la 8ème édition les 7 sujets chauds Data et IA pour l’entreprise. Dans ce webinar à revoir en replay, nos experts vous décryptent les sujets qui...

Actualités Data et IA

Revue de presse Data & IA – Janvier 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'importance de maîtriser l'IA avant...

Tendances Data

#Data / #IA : 7 sujets chauds pour 2024

C’est parti pour la 8ème édition des 7 sujets chauds Data et IA. Chacun de ces sujets constitue autant de solutions pour l’entreprise performante. Quels sont alors les sujets Data...

Actualités Data et IA

Revue de presse Data & IA – Décembre 2023

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l’AI Act et le droit...

Premium

Intégrer l'IA et la Data Science

REPLAY | Matinale Data / IA 2023 : déployer la data et les IA au cœur de l’entreprise

L'exploitation stratégique des données et de l'intelligence artificielle pourrait générer une valeur astronomique, estimée jusqu'à 25 billions de dollars par an, soit plus que le PIB de la France. Si...

Statistique ou Machine Learning, faut-il les opposer ?

Statistique et machine learning à l’ère de la Data Science et de la connaissance client

L’origine du débat

Un peu de théorie

L’explication

Conclusion

Découvrez aussi

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

Revue de presse Data & IA – Mars 2024

REPLAY | Cdiscount : les recettes Data & IA du leader e-commerce

JO : Les athlètes françaises sont-elles meilleures que leurs homologues masculins ? Réponse en Dataviz

Revue de presse Data & IA – Février 2024

REPLAY | Optimiser, gérer et contrôler ses coûts avec la Plateforme Data Cloud Snowflake

[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Etape 2 : la donnée en temps réel, du capteur au Dashboard

RAG : Enrichir les IA génératives avec les données de l'entreprise

REPLAY | Data / IA : nos experts décryptent les 7 sujets chauds pour 2024

Revue de presse Data & IA – Janvier 2024

#Data / #IA : 7 sujets chauds pour 2024

Revue de presse Data & IA – Décembre 2023

REPLAY | Matinale Data / IA 2023 : déployer la data et les IA au cœur de l’entreprise

Informations sur la gestion de vos données et vos droits

Newsletter