To be or not to be a Data Scientist ?

Qu’est ce qu’un Data Scientist ? Ce terme est-il un anglicisme de plus permettant de nommer de manière sexy un métier déjà existant ? Un cache misère permettant de recycler les anciens statisticiens et autres Data Miners ? Derrière ce titre ronflant de « scientifique de la donnée », est-ce vraiment « the hottest job you haven’t heard of » qui se cache ? Et surtout : à quoi sert le Data Scientist ?

To be or not to be a Data Scientist ?

Data Scientist, est-ce vraiment un nouveau métier ?

Avant de répondre à toutes ces questions. Il convient de revenir plus prosaïquement à la définition du métier. Si on se réfère à la définition la plus courante sur la toile, le Data Scientist serait le titre attribué à un employé ou consultant BI excellant dans le domaine de l’analyse de la donnée en général, et en particulier de celle des grandes quantités de données. Donc du Big Data…

Les Data Scientists partagent un socle commun autour du calcul statistique mais ils ne sont ni statisticiens, ni chargés d’études statistiques, ni analyste statisticien.

Si certaines grandes écoles en France commencent à se distinguer dans l’enseignement de ce métier, aucune n’en fait une spécialité. La principale raison invoquée est qu’une formation plus pratique que théorique est pour l’heure préconisée. Pour schématiser, on privilégie l’autoformation, ou encore l’apprentissage du Data Mining « sur le terrain ».

La fonction est de plus en plus reconnue, de plus en plus demandée, car elle répond à de forts enjeux stratégiques au sein des entreprises. Il est couramment demandé aux Data Scientists de maîtriser un large panel d’outils algorithmiques et technologiques afin d’appréhender ceux à même de répondre à l’hétérogénéité croissante des données. En ce sens, une bonne dose de polyvalence et de pédagogie est nécessaire !

Data Scientist ou Data miner ++ ?

Et là, vous me dites : « Bon, et c’est quoi la valeur ajoutée par rapport au Data Miner ? C’est le même métier, non ? »

Leonard de Vinci, Scientifique renomé

Leonard de Vinci, Scientifique renomé

Au quotidien, la répartition des tâches incombant à la fonction de Data Scientist est très variable selon les secteurs, les enjeux, et le niveau d’expérience. Les grandes étapes qui structurent un projet confié à un Data Scientist sont les suivantes :

• Comprendre la problématique métier, les enjeux et les objectifs de l’analyse. Traduire un problème « business » en problème mathématiques/statistiques ;

• Obtenir des données adéquates : trouver les sources de données pertinentes, faire des recommandations sur les bases de données à consolider, modifier, rapatrier, externaliser, internaliser, concevoir des datamarts, voire des entrepôts de données (data warehouses) ;

• Evaluer la qualité et la richesse des données, les analyser et en restituer les résultats. Les intégrer dans le système d’information cible.

Jusque là rien de nouveau… Alors, que fait un Data Scientist que ne fait pas un Data Miner ?

La réponse est dans la question. Un Data Scientist, c’est un scientifique : l’essence de son métier n’est donc pas de traiter la donnée mais juste de l’observer. Son biotope, c’est l’IT. Pour le Data Scientist, la donnée n’est pas qu’une série finie de 0 et de 1. C’est une quantité physique et manipulable à l’instar d’une chaîne carbonée pour un chimiste. Il est au cœur de l’hybridation et sait comment une population sauvage d’information marketing peut être croisée avec des données météorologiques. Il peut analyser des tracés logistiques complexes collectés par capteurs pour en faire ressortir des inducteurs de coûts inédits.

Là est la différence. Le Data Scientist est un scientifique. Un chercheur. Un trouveur ?

 

  • A propos
  • Derniers articles

Fabien Campagne

Consultant en systèmes décisionnels à Business & Decision

- Plus de dix ans d'expérience en SSII - Spécialisation fonctionnelle: gestion à l'affaire, calcul de coût (méthode ABC), gestion réglementaire des banques (volet liquidités actif/passif ). - Spécialisation operationnelle: implémentation de datawarehouses (SSIS, Talend, Informatica, Qlik view), base de données SQL et transactionnel (SQL Server, Oracle, Access, DB2) - Certifié MSBI 70-463 "Implementing datawarehouses with SQL Server"

One Comment

  1. Il est intéressant de voire qu’en peut être dix ans de temps, ces professions qui étaient les moins demandées sur le marché sont maintenant au Top.

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*