De la loi de Moore aux technologies Big Data et Spark

Dès 1965, Gordon Moore (cofondateur de la société Intel) affirmait que le nombre de transistors par circuit de même taille allait doubler, à prix constants, tous les ans. Il rectifia ultérieurement ses propos portant à dix-huit mois le rythme de doublement. Il en déduisit que la puissance des ordinateurs allait croître de manière exponentielle, et ce pour des années.

Gordon Moore and Robert Noyce chez Intel (1970)

Gordon Moore and Robert Noyce chez Intel (1970)
Crédit Photo : Intel Free Press

Il avait raison. Sa loi, fondée sur un constat empirique, a été vérifiée jusqu’à aujourd’hui. Il a cependant déclaré en 1997 que cette croissance des performances des puces se heurterait aux environs de 2017 à une limite physique : celle de la taille des atomes. (Source Futura Sciences).

Les limites de la loi de Moore

Mais cette loi relative à la puissance des ordinateurs revêt certaines inégalités. En bref, au cours des cinq dernières années, le coût du stockage, de la CPU, et de la bande passante ont diminué de façon exponentielle, tandis que l’accès au réseau a augmenté de façon exponentielle. En 1980, un téraoctet de stockage sur disque coutait 14 millions de dollars.

Aujourd’hui, il est à 30 $ et chute encore. Les classes de données qu’il n’était auparavant économiquement pas viables de stocker ou d’exploiter, tels que les fichiers journaux générés par les machines, représentent aujourd’hui des perspectives de profit.

Cependant, si les vitesses des CPU et des réseaux augmentent de manière exponentielle, le goulot d’étranglement pour un accès total et rapide aux données siège bien au niveau de la lecture sur les disques. En effet, les vitesses de lecture ne s’améliorent que lentement. Et ce, du fait des faibles progrès sur les temps de positionnement des têtes de lecture. (Source : Mémoire de DEA d’Intelligence Artificielle et Optimisation Combinatoire – Analyse et réalisation d’un système de disques répartis à forte disponibilité – Septembre 2002 – Marc Hufschmitt – Université Paris 8)

Le Big Data fera-t-il mentir Moore ?

Le Big Data repousse les limites de la loi de Moore

Crédit photo : khunaspix sur FreeDigitalPhotos.net

Ainsi, pour pallier ce facteur limitant, les constructeurs ont chercher à développer des technologies qui réduisaient au maximum les accès disque. Au moins deux voies ont donc été explorées.

Ces deux voies sont longtemps restées disjointes, avec dans le monde Hadoop une vision dite « batch » avec MapReduce et « temps réel » avec Storm. Les temps d’accès aux données pour les logiciels utilisant une stratégie In Memory sont bien souvent identiques voire supérieurs aux temps d’accès sur les SGBDR classiques. Cependant, une convergence est en phase de s’opérer avec l’arrivée de Spark.

Spark est l’une des technologies les plus intéressantes du Big Data

Spark

Spark est devenu un projet open source de la fondation Apache dans la continuité des travaux du laboratoire Amplab de l’Université Berkley. L’objectif est simple mais son application plus complexe surtout s’il s’agit de préserver les propriétés de tolérance aux pannes. Il s’agit donc de garder en mémoire les données entre deux itérations des étapes MapReduce. Ceci est fait selon un principe abstrait de mémoire distribuée : Resilient Distributed Datasets (Zaharia et al. 2012).

Cet environnement est accessible en Java, Scala 5, Python et bientôt R (librairie SparkR). Il est en outre accompagné d’outils de requêtage (Shark), d’analyse de graphes (GraphX) et d’une bibliothèque en développement (MLbase) de méthodes d’apprentissage.

  • A propos
  • Derniers articles

One Comment

Rétroliens pour ce billet

  1. […] Spark est la solution à la mode dans le monde complexe du Big Data. Mais connaissez vous réellement les raisons de cet engouement pour ce type de traitements ? […]

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*