De quoi s'agit-il ?
Le terme « big data » apparaît à la fin des années 1990, au moment où Internet commence à pénétrer dans les foyers. Ce n’est que dix ans plus tard que les milieux académiques commencent à étudier ce phénomène. En 2008 et 2010, il fait la couverture de deux des revues de recherche les plus respectées, Nature et Science.
Le mot « data », en latin, signifie « données ». Il s’agit par exemple du sexe d’un individu, de son apparence physique, de sa date de naissance, du métier, de la musique qu’il écoute ou encore des films qu’il regarde. Ce terme est aussi vieux que la naissance de l’écriture.
Toutefois, avec le numérique, ces données s’échangent plus vite et en plus grand nombre. On parle alors de « big data », souvent défini par trois « v » : volume, variété et vitesse.
- Le volume de données échangées est massif. On estime que quelque 44 zettabits 1 de données seront stockés grâce à Internet en 2020, soit l’équivalent de 6,7 milliards d’années de diffusion de vidéo en haute définition… Ces données sont stockées dans des data centers, d’immenses serveurs toujours plus puissants protégés dans de grands entrepôts.
- La variété renvoie à l’incroyable diversité des données : des nombres, des caractères, des sons, des images animées ou non. « N’importe quelle relation traçable entre un individu et un élément de son environnement peut générer des données enregistrables, stockables, communicables et échangeables », explique Pierre-Michel Menger, professeur au Collège de France.
- La vitesse de transmission, enfin. Les flux de données sont traités en temps réel. Par exemple, le moteur de recherche Google propose 366 000 000 résultats pour le terme « big data » en 0,44 seconde !
Cette croissance exponentielle n’est pas près de s’arrêter. Applications sur smartphones et montres connectées mesurent dorénavant la qualité du sommeil, les performances sportives, le nombre de calories ingérées… On prévoit qu’il y aura 50 milliards d’objets connectés d’ici 2020. On entre dans l’ère de la quantification de soi.
De la tablette d’argile à l’ordinateur
Les humains ont voulu consigner des informations bien avant l’arrivée des premiers ordinateurs. Les premières initiatives remontent à l’invention de l’écriture, sur des tablettes d’argile, en Mésopotamie à la fin du 4e millénaire avant J.C. C’est le « premier stade de l’externalisation de la mémoire et de la parole sur un support ». Le mouvement se poursuit au 15e siècle avec l’invention de l’imprimerie. Au 19e siècle, Herman Hollerith invente la mécanographie, qui permet d’exécuter automatiquement des calculs. Cette technique donnera naissance à la calculatrice, notamment. H. Hollerith fonde ensuite une société qui deviendra, en 1924, IBM. L’entreprise crée les premiers ordinateurs qui stockent, trient et classent des données en exécutant une suite d'instructions écrites à l’aide du langage informatique.
Où sont stockées les données ?
Le site Data Center Map recense plus de 4 300 data centers dans le monde. La plupart se situent en Amérique du Nord (1 700 aux États-Unis, 165 au Canada) ou en Europe (250 au Royaume-Uni, 189 en Allemagne, 147 en France), y compris dans des États de petite taille comme les Pays-Bas qui hébergent 95 centres et la Suisse (76). On compte aussi 140 centres en Inde, mais seulement 77 en Chine, 51 en Russie et 43 au Japon.
Cette situation s’explique par la sécurité politique qu’offrent les pays. Les hébergeurs privilégient aussi les États où la fiscalité est avantageuse (Suisse, Irlande) et les pays où l’électricité est peu chère (certains États américains). En effet, les centres de stockage nécessitent des systèmes de refroidissement importants pour éviter la surchauffe des machines. Ces systèmes représentent jusqu’à 40 % des coûts de fonctionnement. C’est pourquoi l’un des géants de l’Internet, Google, a basé une partie de ses centres de stockage en Finlande, pour profiter du climat naturellement froid.
Maud Navarre
À consulter - www.datacentermap.com