Open Data : Le Web Sera Sémantique Ou Ne Sera Pas

Karine Devenyns (Responsable du projet Service Public d’Eolas) et Didier Gaultier (Customer Intelligence Director et Data Scientist de Business & Decision) ont réalisé une présentation fondamentale sur le thème de la donnée, carburant essentiel des Big Data, malheureusement trop méconnue des marketeurs. Comprendre cette notion de donnée, ses fondements et son travail sont autant de pièces essentielles du puzzle des Big Data.

En effet, comme l’a souligné Didier Gaultier dans sa présentation, « qui ne maîtrise pas ces fondements, ne peut prétendre un jour faire des Big Data ». Exemple frappant entre mille de l’importance des données, le phénomène de l’Open Data, qui révolutionne les usages des données. Au-delà des clichés liés à l’utilisation de ces données ouvertes pour développer des applications mobiles, l’Open Data crée un véritable écosystème destiné à favoriser l’émergence de nouveaux services, de nouveaux marchés, et permet aux entreprises d’innover. Plongeons-nous donc avec Karine et Didier dans cet univers, où le sens de cette donnée prend une importance croissante, jusqu’à en redéfinir le Web, qui devient « sémantique ».

La donnée, cette inconnue

Didier Gaultier a introduit le sujet : « la donnée, dans sa définition même, comporte une notion d’inconnu. Avant d’arriver à la connaissance, il faut être capable de la travailler ». En effet, une donnée prise isolément ne sert a rien : pour l’appréhender il faut absolument un objectif. Cet objectif dans un projet Big Data n’a cependant pas besoin d’être aussi précis que dans un projet informatique classique. Il faut aussi pouvoir comparer les données ensemble et y associer la notion de certitude : il va falloir de ce fait, mélanger des données certaines et incertaines. « Ces dernières ne peuvent être traitées autrement que par la statistique » a insisté Didier Gaultier, en rappelant le caractère incontournable de la mathématique dans ce contexte.

Selon Didier Gaultier, « On ne peut travailler ces données (certaines et incertaines) autrement que par la statistique ».

Deux écoles de la donnée : la statistique et l’intelligence artificielle

Il y a deux écoles de la donnée qui se sont affrontées depuis le début a annoncé Didier Gaultier : « celle de l’intelligence artificielle qui a donné naissance au « machine learning », et celle de la statistique et des mathématiques qui a donné naissance à des algorithmes et des méthodes statistiques. Aujourd’hui, ces deux disciplines sont en train de fusionner » et c’est en cela que le champ des Big Data est un nouveau terrain, fait de la rencontre de ces deux mondes, a priori incompatibles et pourtant complémentaires.

Une nouvelle phase : l’exploration

Une nouvelle phase dans la préparation d’un projet Big Data est apparue nous a décrit Didier Gaultier, c’est la phase d’exploration. « Il est difficile, voire impossible de démarrer un projet de ce type sans traitement de données : le nettoyage, le paramétrage, la transformation des données, et l’évaluation des axes d’analyse sont désormais des étapes incontournables. Or, « qui dit phase exploratoire, parle de défrichage de l’inconnu ».

Les big data : Un nouveau paradigme

Les Big Data ne se limitent cependant pas à une affaire de fusion de méthodes, aussi importantes soient-elles. Il s’agit également de découvrir de nouveaux champs du possible. Prenons le secteur public, en exemple. Celui-ci détient une masse d’informations qui sont une manne pour les chercheurs, les entreprises, les analystes, les marketeurs, et même le grand public. Surtout, toutes ces données ont l’avantage d’être accessibles directement par Internet. Ces données publiques et accessibles sont appelées “Open Data”.

Les Big Data : ce n’est pas seulement un ensemble de méthodes, mais également une ouverture des champs du possible.

Les objectifs de l’Open Data

L’Open Data a plusieurs objectifs, a déclaré Karine Devenyns:

  1. Consulter et « faire parler » les données : cela permet de faire des représentations graphiques (que l’on nomme dans notre jargon “dataviz” pour “data visualisation”, le terme anglais) qui rendent possibles la prise de décisions ;
  2. Inciter à la réutilisation : mais attention aux mythes ! nous ont prévenu Karine et Didier. Il ne faut pas en effet croire que l’Open Data va servir à développer des centaines d’applications sur les mêmes jeux de données. Cette croyance qui a fleuri au début de l’Open Data ne s’est pas avérée ;
  3. Comparer et créer des observatoires ;
  4. Valoriser ces données pour pouvoir ensuite les réutiliser.

Des idées qui émergent du terrain

S’il est admis de façon quasi unanime que l’Open Data représente une opportunité pour les entreprises, ces dernières ne savent pas toujours comment faire pour tirer parti de ces données : on observe cependant plusieurs idées qui émergent sur le terrain :

  1. Partager la connaissance : dans un contexte où les organisations sont souvent redondantes, ce qui implique un faible partage des informations ;
  2. Réduire les erreurs : en recourant à des données fiables et officielle prises du terrain écart âgées avec tous ;
  3. Mettre en cohérence : les différents services des entreprises, sans un contexte où la communication est parfois inexistante entre « silos » qui ne mettent pas en partage leurs données ;
  4. Contrôler les données avec des workflows de validation.

Au delà de ces difficultés, l’Open Data a ainsi donné naissance à de nombreux projets, dont voici quelques exemples :

1. Le projet Smart City du grand Lyon. C’est un aperçu de ce que l’on peut obtenir avec le Linked Open Data développé par Eolas. Parmi les bénéfices apportés par ce projet, on peut citer :

  • Les enjeux environnementaux.
  • La mise en réseau des acteurs entre eux : citoyens, pouvoirs publics et entreprises qui peuvent apporter leurs services.
  • Le passage de la propriété à l’usage.
  • L’intégration des nouvelles technologies de l’information et de la communication.

2. Un projet similaire de ville intelligente est en cours de réalisation à Amsterdam et dans nombreuses autres métropoles en France et dans le monde

3. Les entreprises comme STIME (Groupe Les mousquetaires) ou SNCF se sont aussi lancées dans des projets de ce genre. Dans le dernier cas, malgré une réticence au départ, le fait de partager ces données a permis à l’entreprise de minimiser les retards des trains.

Ce diaporama nécessite JavaScript.

L’erreur à ne pas commettre

L’erreur à ne surtout pas commettre selon Karine Devenyns est d’attendre la réutilisation de ces données à partir d’applications tierces. Ce n’est pas la seule attente à avoir, a prévenu la représentante d’Eolas, « il existe bien d’autres moyens d’utiliser ces données et de maximiser leur utilité ».

Le Web de demain sera sémantique ou ne sera pas

L’une des principales tâches des analystes et des professionnels du métier cependant va bien au delà de la simple donnée et de sa disponibilité universelle : il s’agit de donner du sens à cette donnée, et c’est même un des buts premiers d’Eolas que de permettre la publication de données sémantiques. C’est notamment le cas avec l’utilisation d’une ontologie démographique pour enrichir les données de territoire (voir ici les explications de l’Insee sur leur page dédiée à l’ontologie démographique).

Le Web sémantique ou Linked Data

Aujourd’hui, chaque acteur économique produit et publie des données. Le problème c’est que lorsque l’on tape, par exemple, « Jaguar » sur un moteur de recherche, on obtient des résultats très différents (voiture, OS, animal…). D’où la nécessité de donner un contexte autour de la donnée que l’on collecte ou que l’on publie. Le Web sémantique ou le Linked Data va enrichir les données au travers de cet apport de sens. Un projet Open Data n’a donc de sens que s’il est structuré et mis en relation avec les autres. Ce sont ces relations qui vont créer les usages.

Pour donner ce sens à ces données, il faut cependant des normes et des nomenclatures. Ce travail est en cours, et non complètement terminé. « Les formats de fichiers RDF (Resource Description framework) sont en cours de normalisation » nous a expliqué Karine Devenyns, mais nous ne constatons pas de frein technologique » (voici un exemple de format RDF).

Deux exemples concrets de l’utilisation de l’Open Data

Offre LOD.Eolas : Dessinez votre Open Data

Offre LOD.Eolas : Dessinez votre Open Data

L’Open Data peut être utilisé dans de multiples domaines, notamment celui de la santé.

En voici deux exemples :

  1. Les maladies rares (en gardant à l’esprit qu’une maladie n’est rare qu’en fonction de son lieu ; la malaria, par exemple, n’est pas rare en Afrique) : dans le cadre de ce projet (dont le nom n’est pas ici communiqué), des médecins sont mis en relation pour soigner les malades et transmettre les diagnostics de ces maladies.
  2. Exemple d’utilisation de l’Insee dans le cadre de l’établissement d’une zone de chalandise : la base de l’Insee n’est pas encore complétement disponible sous le régime de l’Open Data, mais « sa partie payante n’est pas très coûteuse » a précisé Didier. En mettant ces données dans une base de data mining, on obtient un nuage de points de vente par rapport à une zone de chalandise (sur la base des profils des habitants et de leur zone géographique). On peut donc caractériser les zones de chalandise pour chaque magasin. Ainsi, lorsque l’on observe une zone prise au hasard, on obtient des informations précises sur les ménages, leur composition etc. Ces informations vont permettre au responsable d’un magasin situé à proximité d’adapter ses offres en fonction des résultats.

Quelles sont les étapes d’un projet Open Data ?

Il y a 3 étapes dans la constitution d’un projet Open Data :

  1. D’abord la préparation des données (dessin des cas d’usage, collecte et classification, affinage) ;
  2. Ensuite la publication des données (qui nécessite d’y associer un vocabulaire, lier les jeux de données et ouverture) ;
  3. Enfin la visualisation : proposer des visualisations graphiques, valoriser les applications et enrichir les graphes de modules tiers (météo, rendus poussés).

« Ces données, y compris en provenance des objets connectés, sont une véritable opportunité de valorisation » a conclu Didier Gaultier, bien au-delà des idées reçues sur le sujet, le cœur du sujet est bien le business.

Offre LOD.Eolas

Offre LOD.Eolas

Pour en savoir plus sur l’offre LOD.Eolas de Business & Decision Eolas : http://lod.eolas.fr/

  • A propos
  • Derniers articles

Il n'existe pas de commentaire pour le moment.

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*