Data Veracity: a New Key to Big Data

In zijn toespraak op Web Summit 2018 verklaarde Yves Bernaert, de Senior Managing Director bij Accenture, dat de zoektocht naar data veracity steeds belangrijker zal worden voor het zinvol omgaan met Big Data. Kortom, Data Science staat op het punt te veranderen van datakwantiteit naar datakwaliteit.

Het is waar, dat data veracity, hoewel altijd aanwezig in Data Science, werd overtroffen door andere drie grote V’s: Volume, Velocity en Variety. Gegevenswaarachtigheid

Volume

Voor gegevensanalyse hebben we enorme hoeveelheden gegevens nodig. Gelukkig worden gegevens tegenwoordig niet alleen door menselijke deskundigen verstrekt, maar ook door machines, netwerken, lezingen van aangesloten apparaten, enzovoort. We kunnen stellen dat we in de meeste gevallen genoeg gegevens om ons heen hebben. Wat we nu moeten selecteren, is wat nuttig kan zijn.

Velocity

Op het gebied van Big Data betekent velocity het tempo en de regelmaat waarmee gegevens uit verschillende bronnen binnenstromen. Het is belangrijk dat de gegevensstroom massaal en continu is, en dat de gegevens in real-time of met slechts enkele seconden vertraging kunnen worden verkregen. Deze real-time gegevens kunnen onderzoekers helpen nauwkeuriger beslissingen te nemen en een vollediger beeld te geven.

Variëteit

Om representatief te zijn, moeten de gegevens uit verschillende bronnen en in vele soorten afkomstig zijn. Momenteel zijn er vele soorten gestructureerde en ongestructureerde gegevens in diverse formaten: spreadsheets, databases, sensor metingen, teksten, foto’s, audio’s, video’s, multimedia bestanden, enz. Het organiseren van deze enorme hoeveelheid heterogene gegevens, de opslag en analyse ervan zijn een grote uitdaging geworden voor datawetenschappers.

Hoe zit het met de waarheidsgetrouwheid van gegevens?

In de meest algemene termen is de waarheidsgetrouwheid van gegevens de mate van nauwkeurigheid of waarachtigheid van een gegevensverzameling. In de context van big data is niet alleen de kwaliteit van de gegevens van belang, maar ook hoe betrouwbaar de bron, het type en de verwerking van de gegevens zijn.

De behoefte aan nauwkeurigere en betrouwbaardere gegevens is altijd al uitgesproken, maar vaak over het hoofd gezien omwille van grotere en goedkopere datasets.

Het is waar dat de vorige data warehouse/business intelligence (DW/BI) architectuur de neiging had om onredelijk veel tijd en moeite te besteden aan gegevensvoorbereiding in een poging om hoge niveaus van precisie te bereiken. Nu, met de opname van ongestructureerde gegevens, die per definitie onzeker en onnauwkeurig zijn, en met de toegenomen variëteit en snelheid, kunnen bedrijven niet genoeg middelen toewijzen om de gegevens goed op te schonen.

Dientengevolge moet de gegevensanalyse worden uitgevoerd op zowel gestructureerde als ongestructureerde gegevens die onzeker en onnauwkeurig zijn. De mate van onzekerheid en onnauwkeurigheid varieert van geval tot geval, zodat het verstandig zou kunnen zijn om een score en rangschikking voor de gegevenswaarachtigheid toe te kennen aan specifieke gegevensverzamelingen.

Bronnen van gegevenswaarachtigheid

bronnen van gegevenswaarachtigheid

Gegevenswaarachtigheid heeft aanleiding gegeven tot twee andere grote V’s van Big Data: validiteit en volatiliteit:

Gegevensvaliditeit volatiliteit

Gegevensvaliditeit

Gegevensvaliditeit komt voort uit het idee van nauwkeurigheid en waarachtigheid van gegevens, maar bekijkt ze vanuit een iets andere hoek, gegevensvaliditeit betekent dat de gegevens correct en nauwkeurig zijn voor het beoogde gebruik, aangezien geldige gegevens de sleutel zijn tot het nemen van de juiste beslissingen.

Volatiliteit

De volatiliteit van gegevens heeft op haar beurt betrekking op de veranderingssnelheid en de levensduur van de gegevens. Om te bepalen of de gegevens nog relevant zijn, moeten we begrijpen hoe lang een bepaald soort gegevens geldig is. Gegevens zoals sociale media, waarbij het sentiment snel verandert, zijn zeer vluchtig. Minder volatiele gegevens, zoals weertrends, zijn gemakkelijker te voorspellen en te volgen. Maar helaas hebben we de volatiliteit soms niet in de hand.

Waarom het belangrijk is

Big data is uiterst complex en er moet nog worden ontdekt hoe het potentieel ervan kan worden ontsloten. Velen denken dat bij machinaal leren hoe meer gegevens we hebben, hoe beter, maar in werkelijkheid hebben we nog steeds statistische methoden nodig om de kwaliteit van de gegevens en de praktische toepassing te garanderen. Het is onmogelijk om ruwe big data te gebruiken zonder ze te valideren of te verklaren. Tegelijkertijd hebben big data geen sterke basis met statistiek. Daarom proberen onderzoekers en analisten inzicht te krijgen in datamanagementplatforms om te pionieren met methoden die gegevens integreren, aggregeren en met grote precisie interpreteren. Sommige van deze methoden omvatten het indexeren en opschonen van de gegevens die in primaire gegevens worden gebruikt om meer context te geven en de waarheidsgetrouwheid van inzichten te behouden.

In dit geval kunnen alleen betrouwbare gegevens waarde toevoegen aan uw analyse- en machine-learningalgoritmen en de nadruk op de waarheidsgetrouwheid ervan zal alleen maar toenemen met datasets die in volume en verscheidenheid groeien.