Veridicitatea datelor: o nouă cheie pentru Big Data

În discursul său de la Web Summit 2018, Yves Bernaert, Senior Managing Director la Accenture, a declarat căutarea veridicității datelor care va deveni din ce în ce mai importantă pentru a da sens Big Data. Pe scurt, Data Science este pe cale să se transforme de la cantitatea de date la calitatea datelor.

Este adevărat, că veridicitatea datelor, deși a fost întotdeauna prezentă în Data Science, a fost eclipsată de alți trei mari V: Volumul, Viteza și Varietatea.

Volumul

Pentru analiza datelor avem nevoie de volume enorme de date. Din fericire, astăzi, datele sunt furnizate nu numai de experți umani, ci și de mașini, rețele, citiri de la dispozitive conectate și așa mai departe. Se poate spune că, în majoritatea cazurilor, avem suficiente date în jurul nostru. Ceea ce avem nevoie acum este să selectăm ceea ce ar putea fi de folos.

Velocitatea

În domeniul Big Data, viteza înseamnă ritmul și regularitatea cu care curg datele din diverse surse. Este important, că fluxul de date este masiv și continuu, iar datele ar putea fi obținute în timp real sau cu o întârziere de doar câteva secunde. Aceste date în timp real pot ajuta cercetătorii să ia decizii mai precise și să ofere o imagine mai completă.

Varietate

Pentru ca datele să fie reprezentative, ele trebuie să provină din diverse surse și de mai multe tipuri. În prezent, există multe tipuri de date structurate și nestructurate în diverse formate: foi de calcul, baze de date, citiri ale senzorilor, texte, fotografii, fișiere audio, video, fișiere multimedia etc. Organizarea acestui bazin uriaș de date eterogene, stocarea și analiza lor au devenit o mare provocare pentru cercetătorii de date.

Ce se întâmplă cu veridicitatea datelor?

În termenii cei mai generali, veridicitatea datelor este gradul de acuratețe sau de veridicitate a unui set de date. În contextul big data, nu doar calitatea datelor este importantă, ci și cât de demne de încredere sunt sursa, tipul și procesarea datelor.

Nevoia de date mai precise și mai fiabile a fost întotdeauna declarată, dar adesea neglijată de dragul unor seturi de date mai mari și mai ieftine.

Este adevărat că arhitectura anterioară a depozitului de date/cunoștințelor de afaceri (DW/BI) a avut tendința de a cheltui cantități nejustificat de mari de timp și efort pentru pregătirea datelor, încercând să atingă niveluri ridicate de precizie. Acum, odată cu încorporarea datelor nestructurate, care sunt incerte și imprecise prin definiție, precum și cu creșterea varietății și vitezei, întreprinderile nu pot aloca suficiente resurse pentru a curăța datele în mod corespunzător.

Ca urmare, analiza datelor trebuie efectuată atât pe date structurate, cât și pe date nestructurate, care sunt incerte și imprecise. Nivelul de incertitudine și imprecizie variază de la caz la caz, astfel încât ar putea fi prudent să se atribuie un scor și un clasament al veridicității datelor pentru anumite seturi de date.

Sursele de veridicitate a datelor

Veridicitatea datelor a dat naștere la alți doi mari „V” ai Big Data: validitatea și volatilitatea:

Volaritatea validității datelor

Validitatea datelor

Plecând de la ideea de acuratețe și veridicitate a datelor, dar privindu-le dintr-un unghi oarecum diferit, validitatea datelor înseamnă că datele sunt corecte și exacte pentru utilizarea prevăzută, deoarece datele valide sunt esențiale pentru luarea deciziilor corecte.

Volatilitatea

Volatilitatea datelor, la rândul ei, se referă la rata de schimbare și durata de viață a datelor. Pentru a determina dacă datele sunt încă relevante, trebuie să înțelegem cât timp este valabil un anumit tip de date. Astfel de date, cum ar fi social media, unde sentimentele se schimbă rapid, sunt foarte volatile. Datele mai puțin volatile, cum ar fi tendințele meteorologice, sunt mai ușor de prezis și de urmărit. Cu toate acestea, din păcate, uneori volatilitatea nu se află sub controlul nostru.

De ce este important

Big data este extrem de complexă și încă nu s-a descoperit cum să îi eliberăm potențialul. Mulți cred că, în învățarea automată, cu cât avem mai multe date, cu atât mai bine, dar, în realitate, avem încă nevoie de metode statistice pentru a asigura calitatea datelor și aplicarea practică. Este imposibil să folosim big data brute fără să le validăm sau să le explicăm. În același timp, big data nu are o bază solidă cu statistica. Acesta este motivul pentru care cercetătorii și analiștii încearcă să înțeleagă platformele de gestionare a datelor pentru a crea metode de pionierat care să integreze, să agregheze și să interpreteze datele cu o precizie ridicată. Unele dintre aceste metode includ indexarea și curățarea datelor care sunt folosite în datele primare pentru a oferi mai mult context și a menține veridicitatea informațiilor.

În acest caz, doar datele de încredere pot adăuga valoare analizei și algoritmilor de învățare automată, iar accentul pe veridicitatea acestora va crește odată cu creșterea volumului și varietății seturilor de date.