Qu'est-ce que la qualité des données, pourquoi est-elle importante et comment l'améliorer ?

Nous avons tous entendu les histoires de guerre nées de données erronées :

Des colis importants sont envoyés au mauvais client.
Des paiements en double sont effectués aux fournisseurs en raison d’enregistrements de facturation corrompus.
Des opportunités de vente sont manquées à cause d’enregistrements de produits incomplets.

Ces histoires ne font pas que vous et votre entreprise passer pour des imbéciles, elles causent également de grands dommages économiques. Et plus votre entreprise s’appuie sur les données, plus le potentiel de préjudice est important.

C’est ici que nous examinons ce qu’est la qualité des données et comment l’ensemble du processus de gestion de la qualité des données peut être amélioré.

Qu’est-ce que la qualité des données ?

Définir la qualité des données est une tâche insaisissable. Même si nous avons le sentiment intuitif qu’elle se rapporte à des données de haut niveau, la définition exacte est difficile à cerner. Diverses institutions, universitaires et experts du secteur ont tenté de préciser les caractéristiques de l’intégrité des données dans leurs définitions de la qualité des données.

Par exemple, Fleckenstein et Fellows (2018) font référence aux données de haute qualité comme étant des données qui « sont adaptées à leurs utilisations prévues dans les opérations, la prise de décision et la planification ». Dans le même ordre d’idées, le National Institute of Standards and Technology définit la qualité des données comme : « l’utilité, l’exactitude et la justesse des données pour leur application ».

Alors, à moins d’être un étudiant essayant de passer un examen sur les processus de gestion des données, pourquoi nous intéresser à ces définitions ? Il ressort clairement des définitions ci-dessus que toutes deux sont orientées vers les aspects pragmatiques de la qualité des données. Disposer de données de haute qualité nous permet de planifier, de prendre des décisions et d’utiliser les données dans diverses applications.

Mais pourquoi cela est-il important ? La qualité des données a d’énormes ramifications sur les résultats de l’entreprise. Avoir une compréhension claire (définition) de ce qui constitue la qualité des données nous permet de la mesurer et de la corriger.

Permettons de plonger plus profondément dans les raisons pour lesquelles la qualité des données est si importante.

Pourquoi la qualité des données est-elle importante ?

Les histoires de guerre mentionnées dans l’introduction en disent long sur l’importance des données. Mais la qualité des données est importante pour une multitude d’autres raisons :

La qualité des données affecte le résultat net. Des données de mauvaise qualité ou corrompues affecteront les opérations de votre entreprise d’un point de vue financier. De l’augmentation des dépenses en cas d’erreurs (retours de marchandises vendues, double facturation, etc.) à la perte d’opportunités financières (négociation de coûts d’approvisionnement plus bas, manquement à des ventes en raison de données incomplètes ou d’un manque de confiance des clients, etc.), les données de mauvaise qualité coûtent plus cher qu’il n’y paraît de prime abord.
La qualité des données affecte la confiance dans les données. Lorsque des problèmes de qualité des données sont découverts, vous perdez la confiance. Les clients peuvent ne pas vous faire confiance parce que vous avez fait des erreurs, tandis que les chefs d’entreprise peuvent ne pas trouver les données fiables pour prendre des décisions. Quoi qu’il en soit, la faible qualité des données a des effets dommageables à long terme sur la réputation des données et des personnes qui en prennent soin.
Des données de haute qualité sont nécessaires pour les produits de données. Nous dirigeons des entreprises à une époque où de plus en plus de produits dépendent des données. Qu’il s’agisse d’applications qui utilisent les données des clients pour fournir des services (applications d’investissement financier, applications sportives, etc.) ou de produits d’apprentissage automatique qui fondent toutes leurs performances sur les données, disposer de données de haute qualité pour votre produit revient à disposer d’un carburant de haute qualité pour votre fusée. Si le carburant n’est pas d’un niveau supérieur, la fusée ne volera pas. Ou comme le disent les ingénieurs en apprentissage automatique : « Garbage in, garbage out ». De mauvaises données ne suffiront pas. S’assurer que les données sont aussi bonnes qu’elles peuvent l’être est une condition préalable à une ligne de produits performante.

Quels sont les problèmes courants de qualité des données ?

Il y a autant de problèmes de qualité des données qu’il y a d’experts en données avec des histoires de guerre.

Demandez à n’importe quel ingénieur ou architecte de données et ils partageront volontiers comment une conception de base de données ou une mise en œuvre analytique a conduit à une débâcle commerciale massive.
Pour comprendre les problèmes récurrents liés à la qualité des données, nous devons regrouper ces problèmes autour de thèmes communs, qui sont connus comme les dimensions de la qualité des données.

Il existe de multiples dimensions de la qualité des données qui comptent :

L’accessibilité ou la disponibilité des données. L’accès aux données est nécessaire si nous voulons les analyser et tirer des conclusions qui conduisent à des perspectives commerciales rentables. Les problèmes concernant l’accessibilité des données peuvent survenir à n’importe quelle étape du pipeline ETL. Notre collecte de données peut être interrompue, ce qui empêche l’importation de certains ensembles de données dans notre base de données, ou nous pouvons rencontrer un problème avec les autorisations de partage, ce qui empêche les analystes d’accéder aux données nécessaires à leur analyse. Cela entrave également la collaboration entre les différents analystes, car ils n’ont pas accès aux données nécessaires pour travailler ensemble.
Exactitude ou correction des données. L’exactitude fait référence à la façon dont les données reflètent le monde réel qu’elles tentent de décrire. Cette caractéristique de la qualité des données est difficile à spécifier dans les normes de qualité des données parce que les problèmes d’exactitude prennent de nombreuses formes, du changement d’adresses qui ne sont pas mises à jour dans les dossiers des clients aux fautes d’orthographe et aux insertions erronées. L’exactitude des données est généralement affirmée en appliquant des règles métier dans le cadre du processus de nettoyage des données, qui vérifie l’exactitude des données.
Complétude ou exhaustivité des données. Les valeurs de données manquantes présentent toujours un problème au sein des opérations de données. S’assurer que les enregistrements sont complets est l’une des caractéristiques des données de haute qualité. Au cours du processus de nettoyage des données, les actifs de données avec des valeurs manquantes sont soit supprimés, soit imputés avec les meilleures estimations comme remplacements.
Cohérence, consistance ou clarté des données. Lorsque deux enregistrements concernant la même unité contiennent des informations contradictoires, ils ne sont pas seulement incohérents – ils freinent également votre capacité à prendre des décisions basées sur les données. Et ne pensons même pas aux problèmes de conformité réglementaire que vous pouvez rencontrer si vos rapports financiers présentent des données incohérentes…
Pertinence, pertinence ou utilité des données. Vous pouvez avoir collecté toutes les données du monde, mais elles sont totalement inutiles si elles ne sont pas pertinentes pour votre analyse et votre activité. Collecter des données pertinentes ou utiles (et écarter le reste) fait partie de l’assurance qualité des données.
Actualité ou latence des données. A quelle vitesse les données sont-elles disponibles ? S’il y a un délai entre la collecte des données à partir de ses sources de données et leur analyse, nous pourrions perdre le potentiel de l’analytique en temps réel. Si les délais sont encore plus longs, nous pourrions produire des rapports avant que toutes les données soient disponibles, ce qui donne une image incorrecte entre ce qui est rapporté (avec des données manquantes) et ce qui est réellement vrai (avec des données retardées).
Unicité des données. Certaines données sont uniques par conception, comme le numéro UUID de votre produit, ou l’identité de vos clients. Le problème courant en matière de qualité des données est la duplication des enregistrements, c’est-à-dire que la même information est insérée plusieurs fois. Ce problème survient généralement lors de la saisie des données, surtout si elle est effectuée manuellement.
Validité ou caractère raisonnable des données. Les données valides sont celles qui sont en accord avec les contraintes commerciales ou techniques. Par exemple, votre client n’a probablement pas 140 ans, il y a donc probablement un problème de validité ici. Mais la validité ne fait pas seulement référence aux contraintes sémantiques (comme l’âge). Elle inclut également la distribution des données et leurs métriques agrégées. L’examen de la moyenne, de la médiane, du mode, des écarts types, des valeurs aberrantes et d’autres caractéristiques statistiques vous permet de discerner la validité de vos données.

Qui est responsable de la qualité des données ?

La qualité des données est l’affaire de tous car une bonne qualité des données permet à chacun de faire confiance au processus et de faire son meilleur travail. Cependant, selon le type d’opérations que vous dirigez, différentes personnes peuvent être responsables de l’affirmation de données de haute qualité.

Dans les entreprises et les déploiements inter-organisationnels, il existe généralement une équipe de gestion des données chargée d’affirmer la qualité des données. Cette équipe se compose d’un gestionnaire de données, qui supervise l’ensemble de l’opération d’assurance de la qualité des données, ainsi que de praticiens chargés de résoudre les conflits techniques et de gestionnaires de données. Ces derniers sont chargés de communiquer les questions de qualité des données et les résolutions de problèmes à travers les silos de l’entreprise.

Dans les petites organisations, les startups et les entreprises à domicile, la responsabilité repose souvent sur les épaules de la » personne des données » (data scientist, business analyst ou data engineer) ou d’une personne du département informatique.

Comment ces équipes et ces personnes parviennent-elles à obtenir des données de haute qualité ? Ils passent par le cycle de gestion de la qualité des données et l’améliorent.

Comment améliorer la qualité des données

Il existe un processus de bonnes pratiques lors de l’amélioration de la qualité de vos données :

Commencez par mettre en place un cadre de gouvernance des données. Le cadre de gouvernance des données spécifie les normes que vous allez suivre et les exigences et règles commerciales à appliquer pour obtenir des données de haute qualité. Cela inclut également la conformité réglementaire, c’est-à-dire la manière dont vos pratiques en matière de qualité des données répondent aux réglementations du Règlement général sur la protection des données (RGPD) de l’Union européenne et/ou de la California Consumer Privacy Act (CCPA).
Mettez en place des indicateurs clés de performance ou des objectifs en matière de qualité des données. Identifiez les dimensions de la qualité des données qui doivent être fixées et spécifiez-les en tant qu’indicateurs clés de performance. Un moyen courant d’évaluer dans quelle mesure la » précision des données » a été améliorée consiste à mesurer le nombre de ressources de données (tables, bases de données, pipelines ETL, etc.) dont vous avez vérifié l’exactitude. Assurez-vous de mettre également en place un système de journalisation pour les rapports sur la qualité des données.
Profiler les données et établir une liste des problèmes. Le profilage des données fait référence à l’analyse des données qui produit un rapport sur la distribution des données, les fréquences, les tendances centrales et les déviations. Cela peut ensuite être utilisé pour comprendre le niveau structurel des données. Utilisez cette analyse et d’autres analyses pour dresser une liste des problèmes à résoudre.
Résolvez les problèmes. C’est aussi simple que cela – réglez-les. Cela est généralement fait par les praticiens des données (gestionnaires de données pratiques, ingénieurs de données et scientifiques de données) en nettoyant les données (nous avons écrit un long guide sur les meilleures pratiques de nettoyage des données – consultez-le ici). Assurez-vous de consigner chaque correction afin de pouvoir générer un rapport de tous les résultats.
Itérer ou empêcher les problèmes de se reproduire. La résolution des problèmes de qualité des données est cyclique. Une fois que vous avez terminé, vous devez revérifier vos plateformes de données afin de vérifier que tout est conforme à vos normes et mis en place dans votre cadre de gouvernance des données. Si ce n’est pas le cas, vous devez nettoyer à nouveau les données. Les approches avancées empêchent les problèmes de qualité des données de se reproduire, ce que nous développons dans la section suivante.

Comment assurer la qualité des données à long terme

Que vous soyez ou non passé par le processus d’affirmation de la qualité des données auparavant et que vous ayez nettoyé vos données, il y a plusieurs problèmes qui vont toujours demander votre attention :

Entropie. Peu importe à quel point vous avez nettoyé vos ressources avant, les données sont vivantes et sont constamment mises à jour, donc de nouvelles erreurs sont susceptibles d’émerger.
La nature du big data. Le big data est le mieux caractérisé par les 3 V : volume, vélocité et variété. Le volume fait référence à la façon dont la quantité de données augmente chaque jour. La vélocité concerne l’accélération de la production de données. Et la variabilité fait référence au fait que les données prennent des formes très différentes : alors que la plupart des données étaient autrefois relationnelles (tableaux de bases de données, enregistrements Excel, etc.), beaucoup de données sont aujourd’hui non structurées (fichiers texte, flux de liens de sites Web, enregistrements vidéo, etc.) Les entreprises qui utilisent des données dans leur processus décisionnel ou leurs produits se tournent vers le big data et ses divers avantages et problèmes. Exploiter le potentiel du big data signifie que nous sommes également confrontés aux défis de la mise à l’échelle de notre infrastructure de collecte de données sans causer de problèmes (tels que des données corrompues et manquantes), ainsi que de l’adaptation de notre processus d’assurance qualité aux exigences des données non structurées.
Réglementations. Les réglementations telles que le GDPR et le CCPA ne sont que quelques-unes des conformités légales auxquelles nous devons nous conformer. De nouvelles réglementations sont introduites et celles qui existent sont mises à jour, ce qui exige une supervision constante et des changements dans le travail d’assurance de la qualité des données que nous entreprenons.

Alors, comment les entreprises gardent-elles leurs données sous contrôle avec tous ces facteurs qui influencent la qualité des données ?

La réponse est un logiciel de qualité basé sur les meilleures pratiques. Un bon logiciel nous aide à gérer les données de plusieurs façons pour assurer leur qualité :

Prévient les violations. Un bon logiciel empêche les problèmes de qualité des données de se produire. Par exemple, vous pouvez mettre en place des contraintes (clés primaires) pour votre table relationnelle qui empêchent l’insertion d’enregistrements en double.
Surveille le pipeline de données. Un bon logiciel surveille vos plateformes de données et vous avertit dès qu’il soupçonne des données corrompues, ou tire la sonnette d’alarme lorsque cela se produit effectivement (par exemple, un pipeline de collecte de données échoue).
Automatisez les processus ETL critiques. Le nettoyage des données se résume à un ensemble de commandes répétitives exécutées dans votre langage préféré (SQL, Python, etc.). Un bon logiciel vous permet d’automatiser ces processus ETL pour toujours garantir que vos données sont de haute qualité.
… et plus encore.

Une plateforme pour gérer la qualité des données

Un bon logiciel peut vous aider à gérer la qualité globale de vos actifs de données.

Keboola est un exemple d’un tel logiciel. En tant que plateforme unifiée de DataOps, vous pouvez utiliser Keboola pour :

Créer votre pipeline de données au sein même de la plateforme. L’ensemble du processus ETL (extraction des sources de données, transformation des données brutes en les nettoyant, et chargement des données dans la base de données de votre choix) peut être réalisé en quelques clics.
Paramétrer votre processus de nettoyage des données au sein des transformations pour garantir les normes de qualité des données de votre cadre de gouvernance des données.
Orchestrer votre transformation pour qu’elle s’exécute automatiquement et être assuré qu’elle vous fournira toujours des données fiables.
Surveillez la fiabilité du pipeline de données de bout en bout.

Mais Keboola va encore plus loin :

Il est entièrement conforme aux exigences réglementaires mondiales (GDPR, CCPA, et bien d’autres).
Offre les meilleurs niveaux de sécurité du secteur.
Permet la collaboration entre toutes vos parties de données. Les problèmes d’accès font partie du passé avec le contrôle granulaire et intuitif des autorisations de Keboola.
Les échelles sont transparentes. Vous voulez des données volumineuses ? Ce n’est pas un problème avec Keboola. L’infrastructure prend soin d’elle-même, donc vous ne souffrirez pas de douleurs de croissance si vous choisissez d’inclure plus de sources ou différents actifs de données.

Prêt à l’essayer ? Vérifiez tout ce que Keboola a à offrir sur ce plan (pour toujours) gratuit. Oui, pour toujours.

S’inscrire à notre newsletter