Accueil > Technologies > Tutoriels outils et langages data > Démonstration de la Data Platform d’Hortonworks

Tutoriels outils et langages data

TUTORIEL | Démonstration de la Data Platform d’Hortonworks

1 octobre 2015 Modifié le 4 mai 2023

Comment utiliser MapReduce, Hive, Pig et HCatalog sur la Data Platform d'Hortonworks. Ce tutoriel vous propose de poursuivre l'exploration concrète des outils Big Data à travers la mise en œuvre de la Data Platform d'Hortonworks.

A la suite du tutoriel MapReduce basé sur la VM Cloudera, ce nouveau tutoriel vous propose de poursuivre l’exploration concrète des outils Big Data à travers la mise en œuvre de la Data Platform d’Hortonworks.

A la découverte de la Data Platform d’Hortonworks

Les exemples d’utilisation porteront sur le comptage de mots dans un texte, des statistiques de baseball et l’analyse de weblogs.

Installation d’Hortonworks

Pour commencer, nous allons télécharger la VM fournie par Hortonworks à l’adresse suivante :
https://fr.hortonworks.com/products/hortonworks-sandbox/#install.

Vous retrouverez également sur ce site de nombreux tutoriels fournis par Hortonworks.
Cette figure positionne ainsi les différents composants de la plateforme Hortonworks :

Architecture de la Data Platform d'Hortonworks

Nous allons successivement utiliser dans ce tutoriel les composants HDFS, MapReduce, Hive, Pig et HCatalog.

Accès en mode commande

L’accès en mode commande se fait via putty en mode ssh, à l’adresse 192.168.239.128.
Les codes utilisateurs sont root / hadoop et hue / 1111.

Accès par navigateur Internet

Dans votre navigateur Internet, entrez l’adresse https://192.168.239.128:8000/about/.
Vous avez ainsi accès aux différents outils qui seront utilisés dans ce tutoriel.

MapReduce

Nous commençons ici encore par le plus basique, à savoir l’accès aux données stockées sur HDFS en mode programmatique.

Dans la fenêtre ssh, on localise 2 fichiers texte, midsummer.txt et sonnets.txt, sur lesquels nous allons effectuer des comptages de mots :

hadoop fs -ls jobsub/sample_data

Un 1er test permet de valider le bon fonctionnement du programme Python wordcount hors hadoop :

cd /usr/lib/hue/apps/jobsub/data/examples
(echo « hello moon »; echo « hello sun ») | python wordcount.py map | sort | python wordcount.py reduce

Puis sur un de nos fichiers d’exemples :

(hadoop fs -cat jobsub/sample_data/sonnets.txt) | python wordcount.py map | sort | python wordcount.py reduce

Nous pouvons passer maintenant à une exécution en streaming sous hadoop :

hadoop jar /usr/hdp/2.2.4.2-2/hadoop-mapreduce/hadoop-streaming.jar \
-input jobsub/sample_data/midsummer.txt -output jobsub/sample_data/nb_mots \
-mapper wordcount_map.py -reducer wordcount_reduce.py \
-file wordcount_map.py -file wordcount_reduce.py

A noter :

Si le fichier cible existe déjà, le supprimer : hadoop fs -rm -r jobsub/sample_data/nb_mots
Pour obtenir de l’aide : hadoop jar /usr/hdp/2.2.4.2-2/hadoop-mapreduce/hadoop-streaming.jar -help

Vous pouvez suivre l’exécution des jobs à l’adresse https://192.168.239.128:8000/jobbrowser/ .

Enfin, pour afficher le résultat :

hadoop fs -cat jobsub/sample_data/nb_mots/part-00000

Si vous voulez réaliser le même comptage avec un programme Java :

hadoop jar hadoop-examples.jar wordcount jobsub/sample_data/midsummer.txt
jobsub/sample_data/nb_mots_java
hadoop fs -cat jobsub/sample_data/nb_mots_java/part-r-00000

Hive

Nous abandonnons maintenant les langages procéduraux pour passer aux outils de plus haut niveau.
Nous utiliserons pour cela l’interface Web fournie par Hortonworks
(pour rappel : https://192.168.239.128:8000/about/).
Commençons par Hive, qui fournit une interface de type SQL pour accéder aux données stockées dans HDFS.

Nous allons tout d’abord charger un fichier de données contenant des statistiques de baseball, qui nous servira pour Hive et Pig.

Un fichier zip peut être téléchargé ici : http://www.seanlahman.com/.
Le chargement dans HDFS se fait en cliquant sur l’icône File Browser de l’interface Web, puis Upload, Files, Select Files, choisir Batting.csv.

Nous allons maintenant manipuler les données du fichier batting à l’aide d’ordres Hive successifs saisis dans l’interface Beeswax (2e icône de l’interface Hortonworks).

On crée alors une table dans laquelle on stocke le nombre de runs par joueur et par année, puis on exécute des requêtes sur cette table :

create table temp_batting (col_value STRING);
LOAD DATA INPATH ‘/user/hue/Batting.csv’ OVERWRITE INTO TABLE temp_batting;
create table batting (player_id STRING, year INT, runs INT);
insert overwrite table batting
SELECT regexp_extract(col_value, ‘^(?:([^,]*)\,?){1}’, 1) player_id,
regexp_extract(col_value, ‘^(?:([^,]*)\,?){2}’, 1) year,
regexp_extract(col_value, ‘^(?:([^,]*)\,?){9}’, 1) run
from temp_batting;

SELECT year, max(runs) max_runs FROM batting GROUP BY year;
SELECT a.year, a.player_id, a.runs from batting a
JOIN (SELECT year, max(runs) runs FROM batting GROUP BY year ) b
ON (a.year = b.year AND a.runs = b.runs)
SORT BY a.year ASC;

N.B. A chaque étape, Beeswax permet de visualiser les résultats, le contenu des tables et les logs d’exécution.

Pig

Pig est un langage de script de haut niveau utilisé avec Hadoop.
Il permet de réaliser des analyses de données sous forme de flux.

Nous allons maintenant manipuler les données du fichier batting à l’aide d’ordres successifs saisis dans l’interface Pig
(3e icône de l’interface Hortonworks).

Attention : ces requêtes doivent être exécutées ensemble, ce qui peut prendre une dizaine de minutes.

— Chargement du fichier source
batting = LOAD ‘Batting.csv’ USING PigStorage(‘,’);
— Suppression de la ligne d’entête
raw_runs = FILTER batting BY $1>0;
— Création d’une table avec 3 colonnes
all_runs = FOREACH raw_runs GENERATE $0 AS playerID, $1 AS year, $8 AS runs;
— Regroupement par année
grp_data = GROUP all_runs BY (year);
— Création d’une table avec le nombre maximal de runs par année
max_runs_year = FOREACH grp_data GENERATE group as max_year, MAX(all_runs.runs) AS max_runs;
— Pour chaque année, recherche du joueur ayant le plus grand nombre de runs
join_max_runs = JOIN max_runs_year BY (max_year, max_runs), all_runs BY (year, runs);
— Extraction des colonnes 0, 2 et 4
join_data = FOREACH join_max_runs GENERATE $0 AS year, $2 AS playerID, $4 AS runs;
— Affichage d’un échantillon
limit_join_data = limit join_data 5;
describe join_data;
dump limit_join_data;

Ce qui donne le résultat final suivant :

Si on veut conserver le résultat dans HDFS, il faut donc ajouter l’ordre suivant :

STORE limit_join_data INTO ‘/user/hadoop/baseball_stats’ USING PigStorage (‘,’);

N.B. On peut également utiliser Pig à travers le Grunt shell (taper pig dans la fenêtre de commandes Windows) :

HCatalog

HCatalog est un outil permettant aux applications autres que Hive d’accéder à ses tables.
On peut ensuite charger directement les tables avec Pig ou MapReduce sans avoir à se soucier de redéfinir les schémas d’entrée ou de l’emplacement des données.

Ici, HCatalog puis Hive pourront alors être utilisés pour analyser des web logs.

On crée les tables omniturelogs, users et products à partir des fichiers tsv correspondants dans RefineDemoData.zip (https://s3.amazonaws.com/hw-sandbox/tutorial8/RefineDemoData.zip).

Pour cela, il suffit donc d’effectuer les manipulations suivantes dans l’interface web :

Cliquer sur l’icône HCatalog de l’interface web,
Ensuite, cliquer sur Create a new table from file,
Puis : Choose a file, upload, create table (avec headers pour users et products, sans pour Omniture.0),
Enfin Browse data pour visualiser le contenu des tables.

On crée une vue sur les logs dans Beeswax :

CREATE VIEW omniture
AS SELECT col_2 ts, col_8 ip, col_13 url, col_14 swid, col_50 city, col_51 country, col_53 state
from omniturelogs

On crée ensuite une table globale pour analyser les données :

create table webloganalytics
as select to_date(o.ts) logdate, o.url, o.ip, o.city, upper(o.state) state, o.country, p.category,
CAST(datediff(from_unixtime(unix_timestamp()), from_unixtime(unix_timestamp(u.birth_dt, ‘dd-MMM-yy’))) / 365 AS INT) age, u.gender_cd gender
from omniture o
inner join products p on o.url = p.url
left outer join users u on o.swid = concat(‘{‘, u.swid , ‘}’)

Finalement, on peut télécharger les résultats au format Excel :

Pour poursuivre dans votre apprentissage de Hadoop et son éco-système, rendez-vous sur notre page Tutoriels.

Business & Decision

Architecte BI & Big Data

Commentaire (1)

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Fabrice Le 22 septembre 2016 à 15h58

Découvrant petit à petit le monde de la BigData, ce post est très intéressant pour une introduction à l'utilisation de ces outils.

De ce que je vois, le traitement des données se fait par des successions de requêtes.
Ayant l'habitude de travailler avec la suite BI de SQL server et notamment SSIS, son ETL.
N'existe pas encore un ETL pour manipuler la donnée.

Merci par avance pour votre réponse

Parcours client

IA et Expérience utilisateur : stratégies, défis et opportunités

L’évolution du rapport entre l’homme et la machine a connu une accélération spectaculaire ces dernières années. De l’avènement des ordinateurs encombrants aux dispositifs personnels tels que les smartphones et les...

Premium

Parcours client

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

La région Bretagne a développé son projet de relation usager avec Orange et a présenté lors d’une conférence dédiée avec les experts Orange Business comment ce projet a été préparé....

Tutoriels outils et langages data

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

« J’ai le plaisir de vous annoncer que j’ai obtenu une nouvelle certification XX (insérer ici un éditeur ;) ) » est devenu un post récurent sur les réseaux sociaux comme LinkedIn....

Actualités Data et IA

Revue de presse Data & IA – Mars 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : le Parlement européen adopte l'AI...

Premium

Solutions technologiques

REPLAY | Cdiscount : les recettes Data & IA du leader e-commerce

Cdiscount a placé la data et les IA au cœur de sa stratégie. Analytique, Intelligence Artificielle, Data Mesh, Big Data, Data Cloud, la démarche du leader e-commerce s'est construit au...

Tendances Data

JO : Les athlètes françaises sont-elles meilleures que leurs homologues masculins ? Réponse en Dataviz

Qui n'a pas déjà vécu des débats enflammés, sur des sujets variés du quotidien ou d’actualité, lors de repas du dimanche en famille ? Des discussions où chacun avance des affirmations...

Actualités Data et IA

Revue de presse Data & IA – Février 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : OpenAI dévoile son nouveau modèle...

Premium

Solutions technologiques

REPLAY | Optimiser, gérer et contrôler ses coûts avec la Plateforme Data Cloud Snowflake

Comment les entreprises peuvent-elles optimiser leurs coûts dans un contexte de besoin d’analyses toujours plus important ? Réponses avec le retour d’expérience de Peaksys, filiale Tech de Cdiscount, présenté lors Data...

IoT et objets connectés

[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Etape 2 : la donnée en temps réel, du capteur au Dashboard

Dans un précédent article, nous vous présentions notre projet Data Rider, le circuit de voiture électrique amélioré de capteurs en tout genre visant à collecter les données des voitures en...

Comprendre l'IA et la Data Science

RAG : Enrichir les IA génératives avec les données de l'entreprise

RAG est l’acronyme incontournable pour tous ceux qui veulent créer de la valeur avec les iA génératives sur les données de leur organisation. Retour sur ce concept-clé et sur les...

Premium

Tendances Data

REPLAY | Data / IA : nos experts décryptent les 7 sujets chauds pour 2024

Nous vous présentons pour la 8ème édition les 7 sujets chauds Data et IA pour l’entreprise. Dans ce webinar à revoir en replay, nos experts vous décryptent les sujets qui...

Actualités Data et IA

Revue de presse Data & IA – Janvier 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'importance de maîtriser l'IA avant...

Tendances Data

#Data / #IA : 7 sujets chauds pour 2024

C’est parti pour la 8ème édition des 7 sujets chauds Data et IA. Chacun de ces sujets constitue autant de solutions pour l’entreprise performante. Quels sont alors les sujets Data...

Actualités Data et IA

Revue de presse Data & IA – Décembre 2023

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l’AI Act et le droit...

TUTORIEL | Démonstration de la Data Platform d’Hortonworks

A la découverte de la Data Platform d’Hortonworks

Installation d’Hortonworks

Accès en mode commande

Accès par navigateur Internet

MapReduce

Hive

Pig

HCatalog

Découvrez aussi

IA et Expérience utilisateur : stratégies, défis et opportunités

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

Revue de presse Data & IA – Mars 2024

REPLAY | Cdiscount : les recettes Data & IA du leader e-commerce

JO : Les athlètes françaises sont-elles meilleures que leurs homologues masculins ? Réponse en Dataviz

Revue de presse Data & IA – Février 2024

REPLAY | Optimiser, gérer et contrôler ses coûts avec la Plateforme Data Cloud Snowflake

[Data Rider] Booster Mario Kart à l’IoT et à l’IA – Etape 2 : la donnée en temps réel, du capteur au Dashboard

RAG : Enrichir les IA génératives avec les données de l'entreprise

REPLAY | Data / IA : nos experts décryptent les 7 sujets chauds pour 2024

Revue de presse Data & IA – Janvier 2024

#Data / #IA : 7 sujets chauds pour 2024

Revue de presse Data & IA – Décembre 2023

Informations sur la gestion de vos données et vos droits

Newsletter