La véracité des données : une nouvelle clé du Big Data

Dans son discours au Web Summit 2018, Yves Bernaert, le Senior Managing Director d’Accenture, a déclaré la quête de la véracité des données qui deviendra de plus en plus importante pour donner du sens au Big Data. En bref, la Data Science est sur le point de passer de la quantité de données à la qualité des données.

Il est vrai, que la véracité des données, bien que toujours présente dans la Data Science, était éclipsée par les trois autres grands V : Volume, Vélocité et Variété.

Volume

Pour l’analyse des données, nous avons besoin d’énormes volumes de données. Heureusement, aujourd’hui, les données sont fournies non seulement par des experts humains, mais aussi par des machines, des réseaux, des relevés d’appareils connectés, etc. On peut dire que dans la plupart des cas, nous avons suffisamment de données autour de nous. Ce dont nous avons besoin maintenant, c’est de sélectionner ce qui pourrait être utile.

Vélocité

Dans le domaine du Big Data, la vélocité signifie le rythme et la régularité avec lesquels les données affluent de diverses sources. Il est important, que le flux de données soit massif et continu, et les données pourraient être obtenues en temps réel ou avec seulement quelques secondes de retard. Ces données en temps réel peuvent aider les chercheurs à prendre des décisions plus précises et à fournir une image plus complète.

Variété

Pour que les données soient représentatives, elles doivent provenir de diverses sources et de nombreux types. A l’heure actuelle, il existe de nombreux types de données structurées et non structurées dans des formats divers : feuilles de calcul, bases de données, relevés de capteurs, textes, photos, audios, vidéos, fichiers multimédia, etc. L’organisation de cet énorme bassin de données hétérogènes, son stockage et son analyse sont devenus un grand défi pour les scientifiques des données.

Qu’en est-il de la véracité des données ?

En termes les plus généraux, la véracité des données est le degré d’exactitude ou de véracité d’un ensemble de données. Dans le contexte du big data, ce n’est pas seulement la qualité des données qui est importante, mais le degré de fiabilité de la source, du type et du traitement des données.

Le besoin de données plus précises et plus fiables a toujours été déclaré mais souvent négligé au profit d’ensembles de données plus grands et moins chers.

Il est vrai que l’architecture précédente d’entrepôt de données/de business intelligence (DW/BI) avait tendance à consacrer des quantités déraisonnables de temps et d’efforts à la préparation des données en essayant d’atteindre des niveaux élevés de précision. Maintenant, avec l’incorporation de données non structurées, qui sont incertaines et imprécises par définition, ainsi qu’avec l’augmentation de la variété et de la vélocité, les entreprises ne peuvent pas allouer suffisamment de ressources pour nettoyer les données correctement.

En conséquence, l’analyse des données doit être effectuée sur des données structurées et non structurées qui sont incertaines et imprécises. Le niveau d’incertitude et d’imprécision varie au cas par cas, il pourrait donc être prudent d’attribuer un score de véracité des données et un classement pour des ensembles de données spécifiques.

Sources de véracité des données

sources de véracité des données

La véracité des données a donné naissance à deux autres grands V du Big Data : la validité et la volatilité :

valeur des données volatilité

Validité

Sortant de l’idée de l’exactitude et de la véracité des données, mais en les considérant sous un angle quelque peu différent, la validité des données signifie que les données sont correctes et précises pour l’utilisation prévue, car des données valides sont essentielles pour prendre les bonnes décisions.

Volatilité

La volatilité des données, à son tour, fait référence au taux de changement et à la durée de vie des données. Pour déterminer si les données sont toujours pertinentes, nous devons comprendre combien de temps un certain type de données est valide. Des données telles que les médias sociaux, où les sentiments changent rapidement, sont très volatiles. Les données moins volatiles, comme les tendances météorologiques, sont plus faciles à prévoir et à suivre. Pourtant, malheureusement, parfois la volatilité n’est pas sous notre contrôle.

Pourquoi c’est important

Les big data sont extrêmement complexes et il reste à découvrir comment libérer leur potentiel. Beaucoup pensent qu’en matière d’apprentissage automatique, plus on a de données, mieux c’est, mais, en réalité, nous avons toujours besoin de méthodes statistiques pour garantir la qualité des données et leur application pratique. Il est impossible d’utiliser des big data brutes sans les valider ou les expliquer. Dans le même temps, les statistiques ne constituent pas une base solide pour le big data. C’est pourquoi les chercheurs et les analystes tentent de comprendre les plates-formes de gestion des données afin de mettre au point des méthodes permettant d’intégrer, d’agréger et d’interpréter les données avec une grande précision. Certaines de ces méthodes comprennent l’indexation et le nettoyage des données qui sont utilisées dans les données primaires pour donner plus de contexte et maintenir la véracité des aperçus.

Dans ce cas, seules les données dignes de confiance peuvent ajouter de la valeur à votre analyse et aux algorithmes d’apprentissage automatique et l’accent sur leur véracité ne fera que croître avec les ensembles de données qui augmentent en volume et en variété.