Médias

Le big data

L’expression« big data » est récemment apparue dans notre langage courant, dans le sillage d’Internet. De quoi s’agit-il ? Comment ces données sont-elles gérées et par qui ? Quels changements économiques, politiques et scientifiques induisent-elles ? Comment permettre aux usagers de maîtriser leurs données personnelles ?

Marie Deshayes
Publié le 15 juin 2018
16 minutes de lecture

- Facebook
- Twitter
- LinkedIn
- WhatsApp
- Copier le lien
Imprimer

De quoi s'agit-il ?

Le terme « big data » apparaît à la fin des années 1990, au moment où Internet commence à pénétrer dans les foyers. Ce n’est que dix ans plus tard que les milieux académiques commencent à étudier ce phénomène. En 2008 et 2010, il fait la couverture de deux des revues de recherche les plus respectées, Nature et Science.

Le mot « data », en latin, signifie « données ». Il s’agit par exemple du sexe d’un individu, de son apparence physique, de sa date de naissance, du métier, de la musique qu’il écoute ou encore des films qu’il regarde. Ce terme est aussi vieux que la naissance de l’écriture.

Toutefois, avec le numérique, ces données s’échangent plus vite et en plus grand nombre. On parle alors de « big data », souvent défini par trois « v » : volume, variété et vitesse.

Le volume de données échangées est massif. On estime que quelque 44 zettabits 1 de données seront stockés grâce à Internet en 2020, soit l’équivalent de 6,7 milliards d’années de diffusion de vidéo en haute définition… Ces données sont stockées dans des data centers, d’immenses serveurs toujours plus puissants protégés dans de grands entrepôts.
La variété renvoie à l’incroyable diversité des données : des nombres, des caractères, des sons, des images animées ou non. « N’importe quelle relation traçable entre un individu et un élément de son environnement peut générer des données enregistrables, stockables, communicables et échangeables », explique Pierre-Michel Menger, professeur au Collège de France.
La vitesse de transmission, enfin. Les flux de données sont traités en temps réel. Par exemple, le moteur de recherche Google propose 366 000 000 résultats pour le terme « big data » en 0,44 seconde !
Cette croissance exponentielle n’est pas près de s’arrêter. Applications sur smartphones et montres connectées mesurent dorénavant la qualité du sommeil, les performances sportives, le nombre de calories ingérées… On prévoit qu’il y aura 50 milliards d’objets connectés d’ici 2020. On entre dans l’ère de la quantification de soi.

De la tablette d’argile à l’ordinateur

Les humains ont voulu consigner des informations bien avant l’arrivée des premiers ordinateurs. Les premières initiatives remontent à l’invention de l’écriture, sur des tablettes d’argile, en Mésopotamie à la fin du 4^e millénaire avant J.C. C’est le « premier stade de l’externalisation de la mémoire et de la parole sur un support ». Le mouvement se poursuit au 15^e siècle avec l’invention de l’imprimerie. Au 19^e siècle, Herman Hollerith invente la mécanographie, qui permet d’exécuter automatiquement des calculs. Cette technique donnera naissance à la calculatrice, notamment. H. Hollerith fonde ensuite une société qui deviendra, en 1924, IBM. L’entreprise crée les premiers ordinateurs qui stockent, trient et classent des données en exécutant une suite d'instructions écrites à l’aide du langage informatique.

Où sont stockées les données ?

Le site Data Center Map recense plus de 4 300 data centers dans le monde. La plupart se situent en Amérique du Nord (1 700 aux États-Unis, 165 au Canada) ou en Europe (250 au Royaume-Uni, 189 en Allemagne, 147 en France), y compris dans des États de petite taille comme les Pays-Bas qui hébergent 95 centres et la Suisse (76). On compte aussi 140 centres en Inde, mais seulement 77 en Chine, 51 en Russie et 43 au Japon.

Cette situation s’explique par la sécurité politique qu’offrent les pays. Les hébergeurs privilégient aussi les États où la fiscalité est avantageuse (Suisse, Irlande) et les pays où l’électricité est peu chère (certains États américains). En effet, les centres de stockage nécessitent des systèmes de refroidissement importants pour éviter la surchauffe des machines. Ces systèmes représentent jusqu’à 40 % des coûts de fonctionnement. C’est pourquoi l’un des géants de l’Internet, Google, a basé une partie de ses centres de stockage en Finlande, pour profiter du climat naturellement froid.

Maud Navarre

À consulter - www.datacentermap.com

¶ Notes

1 1
Un zettabit équivaut à 1 021 bits, l’unité de mesure en langage informatique.
2
Algorithme : suite d’opérations réalisées par un programmeur et exécutées par un ordinateur, permettant d’exploiter des données multiples dans un but précis (par exemple, connaître les centres d’intérêt d’une personne dans un but commercial).
3
Donnée personnelle : toute information se rapportant à une personne physique identifiée ou identifiable, directement ou indirectement (âge, profession, empreinte digitale…). Ces informations peuvent être confidentielles ou publiques.
5
Gafa (ou Gafam) : l’acronyme Gafam regroupe les initiales de Google, Apple, Facebook, Amazon et Microsoft. Il désigne les acteurs les plus puissants de l’économie numérique.
6
Data broker (courtiers en données) : ce sont des intermédiaires (entreprises ou applications en ligne) qui collectent et regroupent des données privées pour les revendre à des sociétés de marketing et de ciblage publicitaire.