L’objectif ici est de démêler le vrai du faux dans tous ces termes marketing, et de les remettre un peu dans leur contexte
Big Data, Smart Data, DMP… c’est qui, c’est quoi ?
On vous dit tout !
Par Adrien MARTIN-LAVAL
Big Data vs Smart Data
Qu’est-ce que le Big Data ?
Le “Big Data” est un terme marketing issu de la notion de “Big Analytics”
Le Big Analytics (aussi appelé « broyage de données ») est un principe d’analyse de données complexes via des méthodes de calcul distribué, c’est à dire un calcul réparti sur plusieurs fermes de serveurs qui gèrent chacune une partie des données, avec des recoupement, afin d’accélérer les calculs et de les placer au plus près du besoin (ex: éviter de concentrer tous les calculs de gestion de l’écosystème d’une société française à San Francisco alors que des serveurs sont disponibles en France)
Depuis le début du siècle, l’explosion de la collecte de données a fait apparaître des enjeux sur 5 dimensions (les « 5V ») :
- 3 dimensions historiques ont vu le jour dans un premier temps
- Volume : Pour une société qui s’intéresse à la collecte et l’utilisation des données, le volume de collecte est passé de quelques teraoctets (10^12) dans les années 2000 à quelques zetaoctets (10^21) dans les années 2010 (et bientôt des milliards de zetaoctets…). Il n’est donc plus possible de concentrer tous les calculs au même endroit
- Variété : les données relationnelles traditionnelles structurées ont été remplacées progressivement par des données brutes, semi-structurées voire non structurées, de sources diverses. Il n’est donc pas possible de tout faire calculer par les mêmes processeurs, et une restructuration de la base à calculer doit être faite régulièrement
- Vélocité (ou rapidité) : la fréquence à laquelle les données sont générées, capturées et partagées augmente en permanence. Des flux croissants de données doivent être analysés en temps réel. Il est donc nécessaire de placer ces flux de données au plus près de l’endroit où elles doivent être utilisées afin de réduire le temps de connexion.
- Puis se sont rajoutées 2 nouvelles dimensions
- Véracité : L'altération des données dans le temps, au moment de la collecte (dégradation des tags avec l'évolution de l'écosystème digital par exemple), ou au moment de leur utilisation (regroupement et fusion de données, sans sauvegarde de la donnée originale par exemple) a rapidement soulevé des problèmes de fiabilité. Il est donc nécessaire de s'assurer en permanence de la qualité de la donnée, afin de ne pas induire d'erreurs dans les calculs issus de son utilisation future.
- Valeur : Les entreprises accordent de plus en plus de valeur à la donnée, mais toutes les données ne se valent pas. Il est apparu nécessaire de se concentrer avant tout sur les données considérées comme apportant une valeur ajoutée, et ne pas collecter des données simplement pour "la beauté de l'art".
Toutes ces contraintes ont obligé les utilisateurs de ces données à repenser leurs modèles de calculs, afin de réduire les coûts de traitement, qui seraient prohibitifs avec les modèles traditionnels. Les premiers à s’être lancés sur le sujet sont les GAFA (Google, Amazon, Facebook, Apple), qui ont compris très tôt l’importance de maîtriser la gestion des données afin de générer des revenus supplémentaires.
Source : https://fr.wikipedia.org/wiki/Big_data
Cette pratique est donc à l’origine de la notion de “Big Data”, un raccourci utilisé par les pionniers pour désigner le “Big Data Analytics”.
Qu’est-ce que le Smart Data ?
Très vite est apparue une interprétation faussée du “Big Data” comme : “je collecte un maximum de données, et je verrai ensuite ce que je peux en faire” (ce qui revient à se concentrer sur les 3 premiers V cités plus haut, sans réfléchir à l'utilité de cette collecte).
Il faut bien comprendre que ce mode de réflexion est posé à l’envers de celui initié par les pionniers (essentiellement les GAFA) qui était “je me rends compte que j’ai besoin de collecter de plus en plus de données, variées, que j’ai identifiées comme ayant de la valeur, et que pour en tirer un bénéfice je vais devoir les analyser très rapidement, voire en temps réel sur une partie.”
Le “Smart Data” est un terme marketing permettant avant tout de se rappeler de se concentrer sur les données qui sont réellement pertinentes. Ceci signifie : “plutôt que de chercher à tout collecter, sans savoir comment le stocker et ranger de manière efficace afin de l’utiliser au mieux, il est plus utile - et bien moins coûteux - de se concentrer sur les données qui ont déjà été identifiées comme ayant une vraie valeur pour l’entreprise”.
Finalement, parler de "smart data", c'est revenir aux fondements de l'analytics et de la notion de Big Data Analytics en mettant en lumière les 2 derniers V.
Une remarque, une question ? N’hésitez-pas à nous contacter.