Accueil > Data Science / IA > Comprendre l'IA et la Data Science > Comment valoriser vos données RH grâce au Machine Learning ?

Comprendre l'IA et la Data Science

Comment valoriser vos données RH grâce au Machine Learning ?

25 avril 2017 Modifié le 26 avril 2023

Julien Renault

Toutes les entreprises d’une certaine taille et avec une certaine ancienneté ont des données RH très simples par salarié. Or, ces mêmes données peuvent aussi être valorisées d’une toute autre manière grâce au machine learning.

Toutes les entreprises d’une certaine taille et avec une certaine ancienneté ont des données RH très simples par salarié du type ancienneté, temps de travail mensuel, salaire, résultats de la dernière évaluation, promotion lors des 5 dernières années, etc. Or, ces mêmes données peuvent aussi être valorisées d’une toute autre manière grâce au machine learning.

Les données RH : une source encore peu exploitée

Dans beaucoup d’entreprises, le département RH livre, grâce aux données dont ils disposent, des analyses descriptives et des tableaux de bords qui répondront à des questions simples comme :

Quel est le salaire moyen dans le département Marketing ?
Quelle est la distribution de l’ancienneté au sein du siège social ?
Combien de personnes travaillent au sein de l’équipe Achats ?

Le machine learning permet d’aller encore plus loin. En effet, si on classifie ces données RH en fonction d’un résultat tel que « l’employé a quitté l’entreprise en 2016 », on entre dans le domaine prédictif. Cela permet au département des Ressources Humaines de comprendre non seulement les raisons du turnover parmi les salariés, mais aussi de prévoir ce qui va se passer dans les mois qui viennent, ceci avec une très bonne précision.

Les algorithmes de classification supervisée

Replay

Data / IA : nos experts décryptent les 7 sujets chauds pour 2024

Le modèle que nous devons concevoir est donc un modèle de classification supervisée, car nous voulons classer les employés selon leur risque de quitter l’entreprise. Un modèle de classification non supervisée (clustering) chercherait à classer les employés sans prendre en compte ce risque, mais en se basant simplement sur leurs similarités statistiques.

Dans le cas présent, nous souhaitons ainsi trouver les groupes de salariés plus ou moins enclins à démissionner prochainement.

A partir d’un fichier disponible sur le site Kaggle.com (voir encadré), nous allons comparer les performances de 9 algorithmes différents tels que les arbres de décision ou les machines à vecteur de support.

Nous avons sept variables prédictives par employé en plus du statut (toujours en poste ou pas) :

Niveau de satisfaction
Accident de travail
Promotion lors des 5 dernières années
Ancienneté dans la société
Dernière évaluation
Temps de travail mensuel moyen
Nombre de projets effectués

Le point sur les principales méthodes de classification en Data Science

Avant d’explorer les résultats de chaque modèle, il est utile de faire le point sur les principales méthodes de classification utilisées en data science, de l’algorithme le plus ancien au plus récent.

Le Machine Learning appliqué aux données RH

1. L’analyse discriminante linéaire (LDA) est une méthode relativement ancienne liée à l’analyse de variance et à l’analyse en composantes principales. C’est donc une méthode de réduction de la dimensionnalité des données qui extrait plusieurs composantes de corrélation minimale à partir de l’ensemble des données.

2. Le réseau de neurones (NNET) est une méthode inspirée schématiquement du fonctionnement des neurones biologiques. Néanmoins, elle est considérée comme une « boîte noire » tant elle reste compliquée à expliquer.

3. Le modèle linéaire généralisé (GLM) permet de construire un modèle linéaire avec des erreurs non normalement distribuées.

4. Les arbres de classification (CART), autrement appelés arbres de décision, permettent de représenter les données sous forme d’un arbre. Chaque extrémité (ou branches) de celui-ci est une combinaison unique des variables de la base.

5. La régression spline (MARS) est une forme de modèle de régression avec ajout de fonctions charnières pour prendre en compte localement des non-linéarités .

6. La machine à vecteurs de support (SVM) est dérivée d’autres méthodes comme la régression logistique ou l’analyse discriminante linéaire. Cette dernière consiste à chercher une frontière de séparation de distance maximale avec les échantillons les plus proches (appelés vecteurs supports).

7. L’adaptive boosting (ADA) est une des plus anciennes méthodes de boosting. L’idée est de créer une prédiction qui performe bien en agrégeant un ensemble de prédicteurs « faibles » (ici des arbres de décision).

8. Le gradient boosting (XGB) est une autre méthode de boosting plus récente, très utilisée dans les compétitions de Data Science.

9. Les forêts d’arbres décisionnels (RF) consistent en un échantillonnage multiple de sous arbres de classification, au niveau des variables aussi bien que des observations.

Déroulement de la classification

La première étape d’une classification consiste à explorer et préparer les données, en examinant tout d’abord la distribution des variables et les corrélations entre variables. Nous ne rentrerons pas dans le détail et assumerons que notre jeu de données RH obéit aux hypothèses fondamentales préalables à une bonne classification.

Afin de construire chacun des modèles et ensuite tester leur performance, il est commun de séparer le jeu de données en 2 avec 75% pour la construction et 25% pour le test. Dans notre cas, il est important de conserver la même proportion de personnes ayant quitté l’entreprise dans les 2 échantillons, en l’occurrence 24%.

Nous nous assurerons d’obtenir les meilleurs modèles en opérant ce que l’on appelle une « cross-validation ». Cela qui consiste à construire les modèles à partir de sous-échantillons aléatoires et de les tester à chaque fois afin d’obtenir le meilleur paramétrage pour chacun. Dans notre étude nous allons faire 10 tirages aléatoires.

Estimation de la performance des modèles

Il existe plusieurs façons d’estimer la performance d’un modèle, telles que :

La précision : le modèle a fait une prédiction correcte
La spécificité : le modèle a correctement prédit les cas où l’événement ne s’est pas produit
La sensibilité : le modèle a correctement prédit les cas où l’événement s’est produit

Les graphiques ci-dessous donnent les moyennes de ces mesures par modèle :

Estimation de la performance des modèles

Nous voyons clairement que les Random Forest et Gradient Boosting performent le mieux. A contrario, les analyses discriminantes et les modèles linéaires généralisés font piètre figure.

Par ailleurs, quand la question du choix d’un unique modèle final se pose, il est utile de comparer les distributions de ces mesures de performance. Ceci peut alors être fait à l’aide des résultats de « cross-validation », où nous avons 10 mesures de sensibilité et de spécificité pour chaque modèle.

Les graphiques ci-dessous montrent de gauche à droite le minimum, le 1er quartile, la médiane, le 3ème quartile et le maximum. Ils permettent de valider :

la supériorité des RF sur le XGB dans notre cas, avec des distributions bien plus resserrées autour de la médiane pour RF que XGB, ce qui assure une meilleure stabilité du modèle.
le caractère trop aléatoire des résultats issus d’arbres aléatoires simples (type CART).
le gros problème de faible spécificité des modèles LDA er GLM.

Machine Learning : Machine Learning : Estimation de la performance des modèles

Ce que l’on peut en conclure

1. Nous avons montré que 99% des cas sont correctement prédits.

Trop beau pour être vrai ? Sans doute. En effet, les données RH peuvent différer entre entreprises en raison de problèmes de cohérence des mesures ou tout simplement de moyens humains pour les traiter. Cette étude a pour but d’illustrer la théorie par l’exemple, mais dans un cas ou l’application est facilement déployable.

En admettant que ce pourcentage soit inférieur, il reste cependant une grande marge permettant d’améliorer la gestion RH dans tous les cas.

2. Le même type d’analyse peut s’appliquer à tout problème où l’on cherche à prédire un événement simple :

Mon client va-t-il résilier son contrat le mois prochain ? Ce nouveau client est-il potentiellement un fraudeur ? Lesquels de mes clients auront le plus envie d’acheter mon nouveau produit ? Un patient va-t-il souffrir d’effets secondaires si je lui administre tel ou tel médicament ? etc.

3. Nous avons vu que les algorithmes de classification les plus récents sont les plus précis.

Chaque compagnie qui voudra appliquer un de ces modèles va choisir le mieux adapté à son environnement, selon le volume des données et le marché cible. Certaines compagnies se contenteront ainsi d’algorithmes moins précis mais plus rapides et mieux interprétables. D’autres seront en revanche prêtes à investir en puissance de calcul afin d’obtenir une précision maximale.

Il faut donc placer le curseur au cas par cas en fonction du but recherché, des moyens disponibles et de l’aversion au risque.

Vous souhaitez en savoir plus sur l’utilisation du Machine Learning ? Business & Decision est là pour vous accompagner. N’hésitez pas à nous contacter.

Business & Decision

Julien Renault est Domain Leader en Advanced Analytics à l’agence Business & Decision de Lille.

Commentaire (1)

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Hadji Le 05 février 2019 à 10h58

j'aimerais effectuer un analyse des sentiments sur des données RH (conernant la gestion des ressources internes, de recrutement, de personnel et de carrière...) en se basant sur les microservices,,, Mais le problème ce que je ne dispose pas de données RH, Bref, je voulais savoir ou je peux appliquer le ML dans ce contexte

Parcours client

IA et Expérience utilisateur : stratégies, défis et opportunités

L’évolution du rapport entre l’homme et la machine a connu une accélération spectaculaire ces dernières années. De l’avènement des ordinateurs encombrants aux dispositifs personnels tels que les smartphones et les...

Premium

Parcours client

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

La région Bretagne a développé son projet de relation usager avec Orange et a présenté lors d’une conférence dédiée avec les experts Orange Business comment ce projet a été préparé....

Tutoriels outils et langages data

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

« J’ai le plaisir de vous annoncer que j’ai obtenu une nouvelle certification XX (insérer ici un éditeur ;) ) » est devenu un post récurent sur les réseaux sociaux comme LinkedIn....

Actualités Data et IA

Revue de presse Data & IA – Mars 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : le Parlement européen adopte l'AI...

Premium

Solutions technologiques

REPLAY | Cdiscount : les recettes Data & IA du leader e-commerce

Cdiscount a placé la data et les IA au cœur de sa stratégie. Analytique, Intelligence Artificielle, Data Mesh, Big Data, Data Cloud, la démarche du leader e-commerce s'est construit au...

Tendances Data

JO : Les athlètes françaises sont-elles meilleures que leurs homologues masculins ? Réponse en Dataviz

Qui n'a pas déjà vécu des débats enflammés, sur des sujets variés du quotidien ou d’actualité, lors de repas du dimanche en famille ? Des discussions où chacun avance des affirmations...

Actualités Data et IA

Revue de presse Data & IA – Février 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : OpenAI dévoile son nouveau modèle...

Premium

Solutions technologiques

REPLAY | Optimiser, gérer et contrôler ses coûts avec la Plateforme Data Cloud Snowflake

Comment les entreprises peuvent-elles optimiser leurs coûts dans un contexte de besoin d’analyses toujours plus important ? Réponses avec le retour d’expérience de Peaksys, filiale Tech de Cdiscount, présenté lors Data...

IoT et objets connectés

[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Etape 2 : la donnée en temps réel, du capteur au Dashboard

Dans un précédent article, nous vous présentions notre projet Data Rider, le circuit de voiture électrique amélioré de capteurs en tout genre visant à collecter les données des voitures en...

Comprendre l'IA et la Data Science

RAG : Enrichir les IA génératives avec les données de l'entreprise

RAG est l’acronyme incontournable pour tous ceux qui veulent créer de la valeur avec les iA génératives sur les données de leur organisation. Retour sur ce concept-clé et sur les...

Premium

Tendances Data

REPLAY | Data / IA : nos experts décryptent les 7 sujets chauds pour 2024

Nous vous présentons pour la 8ème édition les 7 sujets chauds Data et IA pour l’entreprise. Dans ce webinar à revoir en replay, nos experts vous décryptent les sujets qui...

Actualités Data et IA

Revue de presse Data & IA – Janvier 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'importance de maîtriser l'IA avant...

Tendances Data

#Data / #IA : 7 sujets chauds pour 2024

C’est parti pour la 8ème édition des 7 sujets chauds Data et IA. Chacun de ces sujets constitue autant de solutions pour l’entreprise performante. Quels sont alors les sujets Data...

Actualités Data et IA

Revue de presse Data & IA – Décembre 2023

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l’AI Act et le droit...

Comment valoriser vos données RH grâce au Machine Learning ?

Les données RH : une source encore peu exploitée

Les algorithmes de classification supervisée

Le point sur les principales méthodes de classification en Data Science

Déroulement de la classification

Estimation de la performance des modèles

Ce que l’on peut en conclure

1. Nous avons montré que 99% des cas sont correctement prédits.

2. Le même type d’analyse peut s’appliquer à tout problème où l’on cherche à prédire un événement simple :

3. Nous avons vu que les algorithmes de classification les plus récents sont les plus précis.

Découvrez aussi

IA et Expérience utilisateur : stratégies, défis et opportunités

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

Revue de presse Data & IA – Mars 2024

REPLAY | Cdiscount : les recettes Data & IA du leader e-commerce

JO : Les athlètes françaises sont-elles meilleures que leurs homologues masculins ? Réponse en Dataviz

Revue de presse Data & IA – Février 2024

REPLAY | Optimiser, gérer et contrôler ses coûts avec la Plateforme Data Cloud Snowflake

[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Etape 2 : la donnée en temps réel, du capteur au Dashboard

RAG : Enrichir les IA génératives avec les données de l'entreprise

REPLAY | Data / IA : nos experts décryptent les 7 sujets chauds pour 2024

Revue de presse Data & IA – Janvier 2024

#Data / #IA : 7 sujets chauds pour 2024

Revue de presse Data & IA – Décembre 2023

Informations sur la gestion de vos données et vos droits

Newsletter