Intelligence Artificielle, Machine Learning, Data Science : ces termes sont-ils interchangeables ?

De plus en plus d’articles apparaissent sur l’Intelligence Artificielle (I.A.), le machine learning, (voire le deep learning), et de nombreux auteurs parlent indifféremment d’I.A., de machine learning, et de Data Science comme si ces termes étaient largement interchangeables. Qu’en est-il exactement ?

Intelligence Artificielle, Machine Learning, Data Science : ces termes sont-ils interchangeables ?

 

Commençons par décrire l’Intelligence Artificielle comme la mise en œuvre d’agents intelligents. D’après Peter Norvig et Stuart Russel, un agent intelligent est une entité autonome capable de percevoir son environnement grâce à des capteurs, d’agir sur celui-ci grâce à des actionneurs (autrement dit d’interagir avec son environnement), capable d’apprendre, d’analyser, d’utiliser des connaissances, et de prendre des décisions.

Historiquement, les premières I.A. n’étaient pas réellement « apprenantes ». Elles utilisaient au mieux des fonctions heuristiques combinées avec des moteurs de règles. Aujourd’hui, l’évolution des technologies ne nous fait plus concevoir une I.A. qui ne soit pas « apprenante ». En particulier grâce aux progrès récents des algorithmes d’apprentissage profond (deep learning).

Et justement, le fait de faire « apprendre » à une machine s’appelle littéralement le « machine learning ». Celui-ci s’appuie sur des algorithmes (principalement statistiques) pour permettre à une machine « d’apprendre » à partir d’un certain nombre de réponses correctes disponibles connues au départ (échantillon ou base d’apprentissage). Sans cette base de données disponible, souvent très volumineuse, l’apprentissage n’est pas possible.

 

Le Machine Learning, discipline majeure de l’Intelligence Artificielle

 

Une première évidence, d’après ces définitions, est que le machine learning est une discipline majeure de l’intelligence artificielle moderne. Or, les algorithmes qui rendent l’apprentissage possible ont principalement été développés grâce à une autre discipline, sensiblement plus ancienne, connue sous le nom de Statistique.

Plus l’algorithme est simple, plus il est proche de la statistique de base ; plus il est complexe, plus il fait appel à des combinaisons de démarches statistiques élémentaires qui constituent donc les briques de base du machine learning moderne (tel que l’explique par exemple très bien l’éminent Data Scientist et mathématicien russe Vladimir Vapnik). On soulignera au passage que plus l’algorithme est complexe, plus celui-ci sera précis, mais plus il nécessitera une base d’apprentissage importante pour pouvoir fonctionner.

Comme une grosse partie du succès de la statistique et du machine learning repose sur une bonne préparation et une bonne transformation des données, on voit apparaitre très vite une discipline qui englobe a minima la data préparation, la statistique et le machine learning, que l’on peut appeler sans prendre de risque la « Data Science ».

La discipline englobante qui permet de développer toutes sortes d’algorithmes pour l’I.A. s’appelle donc couramment la « Data Science », ses praticiens étant des Data Scientists ou des Data Engineers.

Il semble parfaitement évident que la Data Science et l’Intelligence Artificielle ont énormément en commun.

Matinal de la Data - 21 novembre 2017 à Paris

 

Pour autant peut-on confondre les deux disciplines ?

 

La première objection que l’on peut mettre en avant est que l’on peut faire de la Data Science sans faire d’intelligence artificielle. Il suffit pour s’en convaincre de réaliser, par exemple, une étude de marché en utilisant un échantillonnage statistique sur une population. Cette étude a parfaitement sa place dans la Data Science, sans pour autant faire partie de l’Intelligence Artificielle.

Il existe en effet tout un pan de la Data Science explicative et prédictive qui vise à répondre à des questions business avec une vocation « one shot » sans pour autant vouloir à tout prix automatiser la réponse.

Ceci nous amène à une première conclusion qui est que l’I.A. n’englobe pas (et de loin) toutes les activités de Data Science.

 

Mais peut-on englober l’I.A. dans la Data Science ?

 

Dans l’absolu, la partie collecte et la partie restitution des informations font bien évidemment partie intégrante de la Data Science. En effet, une des difficultés majeures de la Data Science consiste par ailleurs à être en capacité de bien restituer l’information et de bien expliquer la connaissance acquise des algorithmes aux métiers.

Si on considère que le fait de percevoir son environnement grâce à des capteurs fait partie du processus de collecte d’information, et que la partie qui permet à un agent d’agir sur celui-ci directement grâce à des actionneurs fait partie de l’activité de restitution de cette information ou de cette connaissance, il ne nous reste alors plus qu’à examiner la partie « intelligente » de l’I.A. pour savoir si on peut englober cette activité dans la Data Science.

Cette partie « Intelligente » se définit comme nous l’avons vu comme la capacité pour un agent intelligent d’apprendre, d’analyser, d’utiliser des connaissances, et de prendre des décisions. Nous avons nommé cette activité « machine learning », et admis qu’elle était une partie intégrante (et même majeure) de la Data Science.

On peut en conclure de manière non équivoque que l’I.A. fait logiquement partie d’une discipline plus large que représente la Data Science, l’inverse étant faux puisque la celle-ci inclut également la préparation des données, la statistiques et toutes formes d’études faites en utilisant tout ou partie de ces méthodes.

 

L’Intelligence artificielle est la discipline la plus complexe de la Data Science

 

Ceci nous amène à légitimement définir la Data Science comme la réunion de quatre disciplines hybrides :

  • la préparation des données,
  • la statistique,
  • le machine learning,
  • et l’Intelligence Artificielle.

On constate donc que ces termes ne sont pas du tout interchangeables. Les praticiens qui pratiquent une ou plusieurs de ces quatre disciplines sont tous des Data Scientists ou des Data Enginners.

Ces quatre disciplines sont, pour rappel, imbriquées et interdépendantes puisque sans machine learning, de nos jours, on ne peut pas faire d’Intelligence Artificielle, sans statistique on ne peut pas faire de machine learning et sans transformation de la donnée, on en peut pas réussir ses modèles statistiques.

Parmi toutes les disciplines de la Data Science, l’I.A. est la plus complexe d’entre elles à mettre en œuvre, car elle fait nécessairement appel aux trois autres, depuis la dataprep, jusqu’au machine learning.

 

On ne peut cependant pas, sauf (gros) abus de langage, remplacer le terme Data Science par I.A., qui est en seulement une des utilisations, voire probablement l’aboutissement d’un point de vue savoir-faire.

 

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*