Abbiamo tutti sentito le storie di guerra nate da dati sbagliati:
- Pacchi importanti vengono inviati al cliente sbagliato.
- Vengono effettuati doppi pagamenti ai fornitori a causa di registri di fatturazione corrotti.
- Si perdono opportunità di vendita a causa di record di prodotti incompleti.
Queste storie non solo fanno sembrare voi e la vostra azienda degli stupidi, ma causano anche grandi danni economici. E più la vostra azienda si basa sui dati, maggiore è il potenziale di danno.
Qui diamo un’occhiata a cos’è la qualità dei dati e come l’intero processo di gestione della qualità dei dati può essere migliorato.
Che cos’è la qualità dei dati?
Definire la qualità dei dati è un compito sfuggente. Anche se abbiamo una sensazione intuitiva che si riferisce a dati di alto livello, la definizione esatta è difficile da stabilire. Varie istituzioni, accademici ed esperti del settore hanno cercato di specificare le caratteristiche dell’integrità dei dati nelle loro definizioni di qualità dei dati.
Per esempio, Fleckenstein e Fellows (2018) si riferiscono a dati di alta qualità come dati che “sono adatti agli usi previsti nelle operazioni, nei processi decisionali e nella pianificazione”. In una vena simile, il National Institute of Standards and Technology definisce la qualità dei dati come: “l’utilità, l’accuratezza e la correttezza dei dati per la loro applicazione”.
Quindi, a meno che non siamo studenti che cercano di passare un esame sui processi di gestione dei dati, perché ci interessano queste definizioni? È chiaro dalle definizioni di cui sopra che entrambe sono orientate agli aspetti pragmatici della qualità dei dati. Avere dati di alta qualità ci permette di pianificare, prendere decisioni e utilizzare i dati in varie applicazioni.
Ma perché questo è importante? La qualità dei dati ha enormi ramificazioni sulla linea di fondo del business. Avere una chiara comprensione (definizione) di ciò che costituisce la qualità dei dati ci permette di misurarla e correggerla.
Tuffiamoci più a fondo nel perché la qualità dei dati è così importante.
Perché la qualità dei dati è importante?
Le storie di guerra menzionate nell’introduzione parlano molto dell’importanza dei dati. Ma la qualità dei dati è importante per una moltitudine di altre ragioni:
- La qualità dei dati influenza la linea di fondo. Dati di bassa qualità o corrotti influenzeranno le vostre operazioni commerciali da un punto di vista finanziario. Dall’aumento delle spese quando si commettono errori (resi di merci vendute, doppia fatturazione, ecc.) alla perdita di opportunità finanziarie (negoziazione di costi di fornitura inferiori, mancate vendite a causa di dati incompleti o mancanza di fiducia dei clienti, ecc.), i dati di bassa qualità costano più di quanto possa sembrare all’inizio.
- La qualità dei dati influenza la fiducia nei dati. Quando si scoprono problemi di qualità dei dati, si perde la fiducia. I clienti potrebbero non fidarsi di te perché hai commesso degli errori, mentre i leader aziendali potrebbero non trovare i dati affidabili per il processo decisionale. In ogni caso, una bassa qualità dei dati ha effetti dannosi a lungo termine sulla reputazione dei dati e delle persone che se ne occupano.
- I dati di alta qualità sono necessari per i prodotti di dati. Stiamo gestendo le aziende in un’epoca in cui sempre più prodotti dipendono dai dati. Che si tratti di applicazioni che utilizzano i dati dei clienti per fornire servizi (applicazioni di investimento finanziario, applicazioni sportive, ecc.) o prodotti di apprendimento automatico che basano le loro intere prestazioni sui dati, avere dati di alta qualità per il tuo prodotto è come avere carburante di alta qualità per il tuo razzo. A meno che il carburante non sia di uno standard superiore, il razzo non volerà. O come dicono gli ingegneri dell’apprendimento automatico: “Garbage in, garbage out”. I dati scadenti non sono sufficienti. Assicurarsi che i dati siano il meglio possibile è un prerequisito per una linea di prodotti ad alte prestazioni.
Quali sono i problemi comuni di qualità dei dati?
Ci sono tanti problemi di qualità dei dati quanti sono gli esperti di dati con storie di guerra.
Chiedete a qualsiasi ingegnere o architetto di dati e saranno lieti di condividere come un progetto di database o un’implementazione di analisi abbia portato a un’enorme debacle aziendale.
Per capire i problemi ricorrenti che circondano la qualità dei dati, dobbiamo raggruppare questi problemi intorno a temi comuni, che sono noti come le dimensioni della qualità dei dati.
Ci sono molteplici dimensioni della qualità dei dati che contano:
- Accessibilità o disponibilità dei dati. L’accesso ai dati è necessario se vogliamo analizzarli e trarre conclusioni che portino a proficue intuizioni di business. I problemi relativi all’accessibilità dei dati possono verificarsi in qualsiasi fase lungo la pipeline ETL. La nostra raccolta di dati potrebbe essere interrotta, saltando l’importazione di alcuni set di dati nel nostro database, o potremmo incontrare un problema con i permessi di condivisione, che impedisce agli analisti di accedere ai dati necessari per la loro analisi. Questo ostacola anche la collaborazione tra diversi analisti perché non hanno accesso ai dati necessari per lavorare insieme.
- Precisione o correttezza dei dati. L’accuratezza si riferisce a quanto bene i dati riflettono il mondo reale che stanno cercando di descrivere. Questa caratteristica della qualità dei dati è difficile da specificare negli standard di qualità dei dati perché i problemi di accuratezza assumono molte forme, dal cambiamento degli indirizzi che non vengono aggiornati nei record dei clienti agli errori di ortografia e agli inserimenti errati. L’accuratezza dei dati è di solito affermata applicando regole di business all’interno del processo di pulizia dei dati, che controlla la correttezza dei dati.
- Completezza o completezza dei dati. I valori dei dati mancanti rappresentano sempre un problema nelle operazioni sui dati. Assicurarsi che i record siano completi è una delle caratteristiche dei dati di alta qualità. Durante il processo di pulizia dei dati, le risorse di dati con valori mancanti sono rimosse o sono imputate con le migliori stime come sostituzioni.
- Coerenza, coerenza o chiarezza dei dati. Quando due record sulla stessa unità contengono informazioni contrastanti, non sono solo incoerenti, ma smorzano anche la vostra capacità di prendere decisioni guidate dai dati. E non pensiamo nemmeno ai problemi di conformità normativa in cui si può incorrere se i rapporti finanziari mostrano dati incoerenti…
- Rilevanza, pertinenza o utilità dei dati. Potreste aver raccolto tutti i dati del mondo, ma sono completamente inutili se non sono rilevanti per la vostra analisi e il vostro business. Raccogliere dati rilevanti o utili (e scartare il resto) fa parte della garanzia della qualità dei dati.
- Tempestività o latenza dei dati. Quanto velocemente sono disponibili i dati per noi? Se c’è un ritardo tra la raccolta dei dati dalle sue fonti e la loro analisi, potremmo perdere il potenziale dell’analisi in tempo reale. Se i ritardi sono ancora più lunghi, potremmo produrre rapporti prima che tutti i dati siano disponibili, dipingendo così un quadro errato tra ciò che viene riportato (con dati mancanti) e ciò che è effettivamente vero (con dati in ritardo).
- Unicità dei dati. Alcuni dati sono unici per progettazione, come il numero UUID del vostro prodotto, o l’identità dei vostri clienti. Il problema comune nella qualità dei dati è la duplicazione dei record, per cui la stessa informazione viene inserita più volte. Questo problema sorge di solito durante l’inserimento dei dati, specialmente se è fatto manualmente.
- Validità o ragionevolezza dei dati. I dati validi sono quelli che sono in linea con il business o i vincoli tecnici. Per esempio, il vostro cliente probabilmente non ha 140 anni, quindi è probabile che qui ci sia un problema di validità. Ma la validità non si riferisce solo ai vincoli semantici (come l’età). Include anche la distribuzione dei dati e le sue metriche aggregate. Guardando la media, la mediana, la modalità, le deviazioni standard, i valori anomali e altre caratteristiche statistiche è possibile discernere la validità dei dati.
Chi è responsabile della qualità dei dati?
La qualità dei dati è affare di tutti perché una buona qualità dei dati permette a tutti di avere fiducia nel processo e di fare il loro lavoro migliore. Tuttavia, a seconda del tipo di operazioni che gestisci, diverse persone potrebbero essere responsabili dell’affermazione di dati di alta qualità.
Nelle imprese e nelle implementazioni interorganizzative, di solito c’è un team di gestione dei dati incaricato di affermare la qualità dei dati. Il team comprende un data manager, che supervisiona l’intera operazione di garanzia della qualità dei dati, così come i professionisti che risolvono i conflitti tecnici e i data steward. Questi ultimi sono responsabili della comunicazione delle questioni relative alla qualità dei dati e della risoluzione dei problemi attraverso i silos all’interno dell’azienda.
Nelle organizzazioni più piccole, nelle startup e nelle imprese casalinghe, la responsabilità ricade spesso sulle spalle della “persona dei dati” (data scientist, business analyst o data engineer) o di qualcuno del dipartimento IT.
Come fanno questi team e queste persone a ottenere dati di alta qualità? Passano attraverso il ciclo della gestione della qualità dei dati e la migliorano.
Come migliorare la qualità dei dati
C’è un processo di best practice quando si migliora la qualità dei dati:
- Inizia impostando un quadro di governance dei dati. Il quadro di governance dei dati specifica quali standard seguirete e quali requisiti e regole di business devono essere applicati per ottenere dati di alta qualità. Questo include anche la conformità normativa, vale a dire come le vostre pratiche di qualità dei dati soddisfano il Regolamento generale sulla protezione dei dati dell’Unione europea (GDPR) e/o i regolamenti del California Consumer Privacy Act (CCPA).
- Impostare KPI o obiettivi per la qualità dei dati. Identificare le dimensioni della qualità dei dati che devono essere corrette e specificarle come KPI. Un modo comune per valutare quanto la “precisione dei dati” sia stata migliorata è quello di misurare il numero di asset di dati (tabelle, database, pipeline ETL, ecc.) che avete controllato per problemi di precisione. Assicuratevi di impostare anche un sistema di registrazione per il reporting della qualità dei dati.
- Profilate i dati e stabilite una lista di problemi. La profilazione dei dati si riferisce all’analisi dei dati che produce un rapporto sulla distribuzione dei dati, frequenze, tendenze centrali e deviazioni. Questo può essere usato per capire il livello strutturale dei dati. Usate questa e altre analisi per compilare una lista di problemi che devono essere risolti.
- Risolvete i problemi. È così semplice: risolverli. Questo di solito viene fatto dai professionisti dei dati (gestori di dati pratici, ingegneri dei dati e scienziati dei dati) pulendo i dati (abbiamo scritto una lunga guida sulle migliori pratiche per la pulizia dei dati – controllala qui). Assicuratevi di registrare ogni correzione in modo da poter generare un rapporto di tutti i risultati.
- Iterare o evitare che i problemi si ripetano. Risolvere i problemi di qualità dei dati è ciclico. Una volta che hai finito, devi ricontrollare le tue piattaforme di dati per verificare che tutto sia secondo i tuoi standard e impostato nel tuo quadro di governance dei dati. Se non lo è, è necessario ripulire i dati. Gli approcci avanzati prevengono il ripetersi di problemi di qualità dei dati, che espandiamo nella prossima sezione.
Come assicurare la qualità dei dati nel lungo periodo
A prescindere dal fatto che abbiate già affrontato il processo di affermazione della qualità dei dati e che abbiate pulito i vostri dati, ci sono diversi problemi che richiederanno sempre la vostra attenzione:
- Entropia. Non importa quanto bene abbiate pulito le vostre risorse prima, i dati sono vivi e vengono costantemente aggiornati, quindi è probabile che emergano nuovi errori.
- La natura dei grandi dati. I grandi dati sono meglio caratterizzati dalle 3 V: volume, velocità e varietà. Il volume si riferisce a come la quantità di dati sta aumentando ogni giorno. La velocità si riferisce a come la produzione di dati è accelerata. E la variabilità si riferisce a come i dati assumono molte forme diverse: mentre la maggior parte dei dati in passato era relazionale (tabelle di database, record di Excel, ecc.), molti dati oggi sono non strutturati (file di testo, flussi di link di siti web, registrazioni video, ecc.) Le aziende che usano i dati nel loro processo decisionale o nei loro prodotti oscillano verso i big data e i suoi vari vantaggi e problemi. Sfruttare il potenziale dei big data significa che dobbiamo anche affrontare le sfide di scalare la nostra infrastruttura per la raccolta dei dati senza causare problemi (come dati corrotti e mancanti), così come adattare il nostro processo di garanzia della qualità alle esigenze dei dati non strutturati.
- Normative. Regolamenti come il GDPR e il CCPA sono solo alcuni degli adempimenti legali che dobbiamo rispettare. Vengono introdotti nuovi regolamenti e quelli esistenti vengono aggiornati, il che richiede una supervisione costante e modifiche al lavoro di garanzia della qualità dei dati che intraprendiamo.
Come fanno le aziende a tenere sotto controllo i loro dati con tutti questi fattori che influenzano la qualità dei dati?
La risposta è attraverso un software di qualità basato sulle migliori pratiche. Un buon software ci aiuta a gestire i dati in diversi modi per assicurarne la qualità:
- Previene le violazioni. Un buon software previene l’insorgere di problemi di qualità dei dati. Per esempio, potreste impostare vincoli (chiave primaria) per la vostra tabella relazionale che impediscono l’inserimento di record duplicati.
- Monitora la pipeline di dati. Un buon software monitora le vostre piattaforme di dati e vi avvisa ogni volta che sospetta la corruzione dei dati, o suona l’allarme quando accade effettivamente (ad esempio, una pipeline di raccolta dati fallisce).
- Automatizzare i processi ETL critici. La pulizia dei dati si riduce a una serie di comandi ripetitivi eseguiti nel vostro linguaggio preferito (SQL, Python, ecc.). Un buon software ti permette di automatizzare questi processi ETL per garantire sempre che i tuoi dati siano di alta qualità.
- … e altro ancora.
Una piattaforma per gestire la qualità dei dati
Un buon software può aiutarti a gestire la qualità complessiva delle tue risorse di dati.
Keboola è un esempio di questo software. Come piattaforma DataOps unificata, potete usare Keboola per:
- Impostare la vostra pipeline di dati all’interno della piattaforma stessa. L’intero processo ETL (estrazione delle fonti di dati, trasformazione dei dati grezzi pulendoli e caricamento dei dati nel database prescelto) può essere realizzato in un paio di clic.
- Impostare il processo di pulizia dei dati all’interno delle trasformazioni per garantire gli standard di qualità dei dati del tuo quadro di governance dei dati.
- Orchestrare la tua trasformazione affinché venga eseguita automaticamente e stai sicuro che ti fornirà sempre dati affidabili.
- Monitorare la pipeline di dati end-to-end per l’affidabilità.
Ma Keboola fa un ulteriore passo avanti:
- È completamente conforme alle richieste normative globali (GDPR, CCPA, e molte altre).
- Offre i migliori livelli di sicurezza del settore.
- Permette la collaborazione tra tutte le tue parti dei dati. I problemi di accesso sono un ricordo del passato con il controllo dei permessi granulare e intuitivo di Keboola.
- Si scala senza problemi. Vuoi grandi dati? Non è un problema con Keboola. L’infrastruttura si prende cura di se stessa, quindi non soffrirai di dolori di crescita se scegli di includere più fonti o diversi asset di dati.
Pronti a provarlo? Scopri tutto quello che Keboola ha da offrire su questo piano gratuito (per sempre). Sì, per sempre.