Data Veracity: una nuova chiave per i Big Data

Nel suo discorso al Web Summit 2018, Yves Bernaert, il Senior Managing Director di Accenture, ha dichiarato la ricerca della veracità dei dati che diventerà sempre più importante per dare un senso ai Big Data. In breve, la Data Science sta per passare dalla quantità dei dati alla qualità dei dati.

È vero, che la veridicità dei dati, anche se sempre presente nella Data Science, è stata superata da altre tre grandi V: Volume, Velocità e Varietà. Veracità dei dati

Volume

Per l’analisi dei dati abbiamo bisogno di enormi volumi di dati. Fortunatamente, oggi i dati sono forniti non solo da esperti umani ma da macchine, reti, letture da dispositivi collegati e così via. Si può dire che nella maggior parte dei casi, abbiamo abbastanza dati intorno a noi. Ciò di cui abbiamo bisogno ora è selezionare ciò che potrebbe essere utile.

Velocità

Nel campo dei Big Data, la velocità significa il ritmo e la regolarità con cui i dati fluiscono da varie fonti. È importante che il flusso di dati sia massiccio e continuo, e che i dati possano essere ottenuti in tempo reale o con pochi secondi di ritardo. Questi dati in tempo reale possono aiutare i ricercatori a prendere decisioni più accurate e fornire un quadro più completo.

Varietà

Perché i dati siano rappresentativi, dovrebbero provenire da varie fonti e in molti tipi. Attualmente, ci sono molti tipi di dati strutturati e non strutturati in diversi formati: fogli di calcolo, database, letture di sensori, testi, foto, audio, video, file multimediali, ecc. L’organizzazione di questo enorme pool di dati eterogenei, la loro memorizzazione e l’analisi sono diventati una grande sfida per gli scienziati dei dati.

Che dire della veridicità dei dati?

In termini più generali, la veridicità dei dati è il grado di accuratezza o veridicità di un insieme di dati. Nel contesto dei big data, non è importante solo la qualità dei dati, ma quanto siano affidabili la fonte, il tipo e l’elaborazione dei dati.

La necessità di dati più accurati e affidabili è sempre stata dichiarata, ma spesso trascurata in nome di set di dati più grandi e meno costosi.

È vero che la precedente architettura di data warehouse/business intelligence (DW/BI) tendeva a spendere irragionevolmente grandi quantità di tempo e sforzi nella preparazione dei dati cercando di raggiungere alti livelli di precisione. Ora, con l’incorporazione di dati non strutturati, che sono incerti e imprecisi per definizione, così come con la maggiore varietà e velocità, le aziende non possono allocare abbastanza risorse per ripulire i dati in modo adeguato.

Come risultato, l’analisi dei dati deve essere eseguita su dati strutturati e non strutturati che sono incerti e imprecisi. Il livello di incertezza e imprecisione varia caso per caso, quindi potrebbe essere prudente assegnare un punteggio di veridicità dei dati e una classifica per specifiche serie di dati.

Fonti della veridicità dei dati

fonti della veridicità dei dati

La veridicità dei dati ha dato origine ad altre due grandi V dei Big Data: validità e volatilità:

Validità dei dati volatilità

Validità

Sorgendo dall’idea di accuratezza e veridicità dei dati, ma guardandoli da un’angolazione un po’ diversa, la validità dei dati significa che i dati sono corretti e accurati per l’uso previsto, poiché i dati validi sono la chiave per prendere le decisioni giuste.

Volatilità

La volatilità dei dati, a sua volta, si riferisce al tasso di cambiamento e alla durata dei dati. Per determinare se i dati sono ancora rilevanti, dobbiamo capire per quanto tempo un certo tipo di dati è valido. Dati come i social media, dove i sentimenti cambiano rapidamente, sono altamente volatili. Dati meno volatili come le tendenze del tempo sono più facili da prevedere e tracciare. Eppure, sfortunatamente, a volte la volatilità non è sotto il nostro controllo.

Perché è importante

I grandi dati sono estremamente complessi ed è ancora da scoprire come liberare il loro potenziale. Molti pensano che nel machine learning più dati abbiamo e meglio è, ma, in realtà, abbiamo ancora bisogno di metodi statistici per garantire la qualità dei dati e l’applicazione pratica. È impossibile utilizzare i big data grezzi senza convalidarli o spiegarli. Allo stesso tempo, i big data non hanno una solida base con la statistica. Ecco perché i ricercatori e gli analisti cercano di capire le piattaforme di gestione dei dati per sperimentare metodi che integrano, aggregano e interpretano i dati con alta precisione. Alcuni di questi metodi includono l’indicizzazione e la pulizia dei dati che vengono utilizzati nei dati primari per dare più contesto e mantenere la veridicità delle intuizioni.

In questo caso, solo i dati affidabili possono aggiungere valore alle vostre analisi e agli algoritmi di apprendimento automatico e l’enfasi sulla loro veridicità non potrà che crescere con i set di dati che crescono in volume e varietà.