Les enseignements du Glossaire Big Data de O’Reilly

En 2013, les Big Data faisaient partie des 7 ambitions stratégiques de la France déterminées par la Commission Innovation 2030. Aux côtés du stockage de l’énergie, de la médecine individualisée ou de l’innovation au service de la longévité (silver economy), la valorisation des données massives est un enjeu qu’il importe que la France et ses entreprises maîtrisent d’ici 2025.

La Matinale du Big Data du mois d’octobre 2014 m’a à nouveau permis de mesurer un engouement qui ne s’apaise pas ainsi qu’une véritable volonté de nombreux acteurs (tant institutionnels que privés) à lancer des expérimentations et des projets. Les possibilités sont ainsi de mieux en mieux comprises et c’est un plaisir que d’échanger au quotidien autour de cas d’usage qui ne cessent de se multiplier…

Glossaire Big Data (ed. O'Reilly)

Glossaire Big Data (ed. O’Reilly)

Entrer en matière avec le glossaire de O’Reilly

Il reste néanmoins de réelles difficultés à appréhender l’écosystème technologique afin de l’adapter à des besoins dont on sait déjà qu’ils seront très volatiles… Édité par O’Reilly, le Big Data Glossary (écrit par Pete Warden) est un excellent point d’entrée pour s’y retrouver dans l’explosion cambrienne des nouveaux outils créés avec l’avènement du Big Data. L’un des mérites de ce glossaire (d’à peine 50 pages) est qu’il s’adresse à un public très large et n’ayant pas nécessairement des compétences de développeurs.

 

 

 

Dans ce glossaire, Pete Warden articule son propos autour des grandes fonctions d’une architecture Big Data à haut niveau :

Glossaire des Big Data

Glossaire des Big Data

Chacune de ces briques bénéficie d’un chapitre où chaque technologie majeure ou historique est décrite :

  • Hébergement: la gestion des machines physiques ou virtuelles à travers des outils d’administrations (Apache Ambari) et les possibilités offertes par le cloud computing (on y retrouve les briques EC2 d’Amazon ou Compute de Google mais les solutions françaises de cloud souverain tels que Cloudwatt ou Numergy pourraient aujourd’hui y trouver une place).
  • Stockage: du mouvement NoSQL (Cassandra, MongoDB, Neo4j…) qui est venu compléter le monde des bases de données relationnelles au stockage distribué (Hadoop HDFS ou Amazon S3).
  • Les facilités offertes aux développeurs pour mener à bien des calculs massivement distribués (MapReduce pour les calculs, Avro pour la sérialisation, Spark pour accéder au temps réel…) ou accéder à des algorithmes historiquement très coûteux lorsque l’on voulait les exploiter à grande échelle (qui a dit Machine Learning ?)
  • L’analyse (langage R), la recherche (ElasticSearch) et la visualisation (Tableau, Gephi) ont également su s’adapter.

À ceci, il faut également ajouter toute la panoplie d’outils qui permet de collecter des données et d’alimenter nos nouvelles applications (OpenRefine) ou d’effectuer un premier filtre d’analyse (on pense notamment aux outils de traitement du langage naturel tels qu’Open NLP).

Un tel filtre d’analyse est utilisé dans l’industrie du jeu. Online casino moderne de la Hollande est populaire en raison de ce filtre. Tous les clients de ce casino est leur public cible. Écrit il y a plus de 3 ans, il est par ailleurs impressionnant de mesurer l’évolution technologique : certaines technologies ont disparu, d’autres ont muté (Google Refine est passé en Open Source en devenant Open Refine), d’autres encore ont vu leur popularité exploser… Sans compter toutes celles qui sont venues peupler une ménagerie qui était déjà bien fournie…

Dans mes prochains articles, je ferai un focus sur chacun de ces pans de technologies afin d’en dresser un état des lieux et de réactualiser ce glossaire. En attendant je ne saurai que vous enjoindre à l’acquérir en vous rendant directement sur le site d’O’Reilly (petite astuce, pensez à vous inscrire gratuitement, si ce n’est pas déjà fait : vous y gagnez une remise systématique de 50% sur tous les ebooks de cet excellent éditeur et ce dernier y gagne un client en vente directe…). Et pour ceux qui ne l’ont pas encore lu, n’oubliez pas de rafraîchir votre vision du marché grâce au panorama offert ici-même la semaine dernière par Stéphane Walter.

  • A propos
  • Derniers articles

Michaël HOARAU

Head of Information Management & Big Data Practice à Business & Decision

De l'aéronautique au numérique, plus de 10 ans passées à exploiter et valoriser les données pour mes clients.

One Comment

Rétroliens pour ce billet

  1. […] notamment dans le domaine de la connaissance clients (en utilisant Hadoop, R et des technologies NoSQL). L’entreprise a aussi réduit les coûts de maintenance des centrales de production […]

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*