Data Veracity: en ny nøgle til Big Data

I sin tale på Web Summit 2018 erklærede Yves Bernaert, Senior Managing Director hos Accenture, at søgen efter dataværdighed vil blive stadig vigtigere for at få mening ud af Big Data. Kort sagt er Data Science ved at vende sig fra datakvantitet til datakvalitet.

Det er rigtigt, at data veracity, selv om det altid har været til stede i Data Science, blev overskygget af de andre tre store V’er: Volume, Velocity og Variety.

Volume

Til dataanalyse har vi brug for enorme datamængder. Heldigvis leveres data i dag ikke kun af menneskelige eksperter, men også af maskiner, netværk, aflæsninger fra tilsluttede enheder osv. Man kan sige, at vi i de fleste tilfælde har data nok omkring os. Det, vi har brug for nu, er at udvælge det, der kan være brugbart.

Velocity

I forbindelse med Big Data betyder hastighed det tempo og den regelmæssighed, hvormed data strømmer ind fra forskellige kilder. Det er vigtigt, at datastrømmen er massiv og kontinuerlig, og at dataene kan indhentes i realtid eller med kun få sekunders forsinkelse. Disse realtidsdata kan hjælpe forskerne med at træffe mere præcise beslutninger og give et mere fyldestgørende billede.

Variety

For at dataene skal være repræsentative, skal de komme fra forskellige kilder og i mange typer. På nuværende tidspunkt findes der mange former for strukturerede og ustrukturerede data i forskellige formater: regneark, databaser, sensoraflæsninger, tekster, fotos, lydbånd, videoer, multimediefiler osv. Organisering af denne enorme pulje af heterogene data, lagring og analyse heraf er blevet en stor udfordring for dataloger.

Hvad er der med dataværdighed?

I de mest generelle vendinger er dataværdighed graden af nøjagtighed eller sandfærdighed af et datasæt. I forbindelse med big data er det ikke kun datakvaliteten, der er vigtig, men også hvor troværdig kilden, typen og behandlingen af dataene er.

Behovet for mere nøjagtige og pålidelige data har altid været erklæret, men blev ofte overset af hensyn til større og billigere datasæt.

Det er rigtigt, at den tidligere data warehouse/business intelligence (DW/BI)-arkitektur havde en tendens til at bruge urimeligt meget tid og kræfter på datapræparation i forsøget på at opnå et højt præcisionsniveau. Nu, med inddragelsen af ustrukturerede data, som pr. definition er usikre og upræcise, samt med den øgede variation og hastighed, kan virksomhederne ikke allokere nok ressourcer til at rense data ordentligt op.

Som følge heraf skal dataanalyse udføres på både strukturerede og ustrukturerede data, som er usikre og upræcise. Niveauet af usikkerhed og upræcision varierer fra sag til sag, så det kan være klogt at tildele en Data Veracity score og rangordning for specifikke datasæt.

Kilder til dataværdighed

Dataværdighed har givet anledning til to andre store V’er i Big Data: validitet og volatilitet:

datavaliditet volatilitet

Validitet

Som udspringer af ideen om datas nøjagtighed og sandfærdighed, men set fra en lidt anden vinkel, betyder datavaliditet, at dataene er korrekte og nøjagtige til den tilsigtede anvendelse, da valide data er nøglen til at træffe de rigtige beslutninger.

Volatilitet

Datas volatilitet henviser til gengæld til dataenes ændringshastighed og levetid. For at afgøre, om dataene stadig er relevante, er vi nødt til at forstå, hvor længe en bestemt type data er gyldige. Sådanne data som f.eks. sociale medier, hvor stemninger ændrer sig hurtigt, er meget flygtige. Mindre flygtige data som f.eks. vejrtrends er lettere at forudsige og spore. Men desværre er volatiliteten nogle gange ikke inden for vores kontrol.

Hvorfor det er vigtigt

Big data er ekstremt komplekse, og det er stadig uopdaget, hvordan vi kan frigøre deres potentiale. Mange tror, at inden for maskinlæring, jo flere data vi har, jo bedre, men i virkeligheden har vi stadig brug for statistiske metoder for at sikre datakvalitet og praktisk anvendelse. Det er umuligt at bruge rå big data uden at validere eller forklare dem. Samtidig har big data ikke et stærkt fundament med statistik. Derfor forsøger forskere og analytikere at forstå dataforvaltningsplatforme for at være pionerer inden for metoder, der integrerer, aggregerer og fortolker data med høj præcision. Nogle af disse metoder omfatter indeksering og rensning af de data, der anvendes i primære data for at give mere kontekst og bevare sandheden af indsigt.

I dette tilfælde kan kun troværdige data tilføre værdi til dine analyser og maskinlæringsalgoritmer, og vægten på deres sandhed vil kun vokse med datasæt, der vokser i mængde og variation.