Datavärlighet: en ny nyckel till Big Data

I sitt tal på Web Summit 2018 förklarade Yves Bernaert, Senior Managing Director på Accenture, att strävan efter datavärlighet kommer att bli allt viktigare för att förstå Big Data. Kort sagt är Data Science på väg att gå från datakvantitet till datakvalitet.

Det är sant att datavärdet, även om det alltid funnits inom Data Science, överglänstes av de andra tre stora V:na: Volym, snabbhet och variation. Data veracity

Volym

För dataanalys behöver vi enorma datamängder. Som tur är tillhandahålls data i dag inte bara av mänskliga experter utan också av maskiner, nätverk, avläsningar från uppkopplade enheter och så vidare. Man kan säga att vi i de flesta fall har tillräckligt med data omkring oss. Vad vi behöver nu är att välja ut vad som kan vara till nytta.

Velocity

Inom området Big Data betyder hastighet den takt och regelbundenhet med vilken data strömmar in från olika källor. Det är viktigt, att dataflödet är massivt och kontinuerligt, och att uppgifterna kan erhållas i realtid eller med bara några sekunders fördröjning. Dessa realtidsdata kan hjälpa forskare att fatta mer exakta beslut och ge en mer fullständig bild.

Variety

För att data ska vara representativa bör de komma från olika källor och i många olika typer. För närvarande finns det många typer av strukturerade och ostrukturerade data i olika format: Kalkylblad, databaser, sensoravläsningar, texter, foton, ljudfiler, videor, multimediefiler osv. Organisering av denna enorma mängd heterogena data, lagring och analys har blivit en stor utmaning för datavetare.

Hur är det med datavärdhet?

I de mest allmänna termer är datavärdhet graden av noggrannhet eller sanningsenlighet hos en datamängd. I samband med stora datamängder är det inte bara datakvaliteten som är viktig, utan även hur pålitlig källan, typen och bearbetningen av data är.

Behovet av mer exakta och tillförlitliga data har alltid förklarats, men har ofta förbisetts till förmån för större och billigare datamängder.

Det stämmer att den tidigare arkitekturen för datalager/affärsinformation (DW/BI) tenderade att lägga orimligt mycket tid och kraft på dataförberedelser i ett försök att nå höga nivåer av precision. I och med införandet av ostrukturerade data, som per definition är osäkra och oprecisa, samt med den ökade variationen och hastigheten, kan företagen inte avsätta tillräckligt med resurser för att rensa data på rätt sätt.

Som ett resultat av detta måste dataanalysen utföras på både strukturerade och ostrukturerade data som är osäkra och oprecisa. Nivån av osäkerhet och oprecisitet varierar från fall till fall, så det kan vara klokt att tilldela en Data Veracity-poäng och en rangordning för specifika datamängder.

Källor till datavärdhet

Datavärdhet har gett upphov till två andra stora V:n i Big Data: validitet och volatilitet:

Data Validity volatility

Validity

Springande från idén om datanoggrannhet och sanningsenlighet, men med en något annorlunda synvinkel, innebär datanoggrannhet att uppgifterna är korrekta och exakta för den avsedda användningen, eftersom giltiga uppgifter är nyckeln till att fatta rätt beslut.

Volatilitet

Dataens volatilitet hänvisar i sin tur till dataens förändringshastighet och livslängd. För att avgöra om data fortfarande är relevanta måste vi förstå hur länge en viss typ av data är giltig. Sådana data som sociala medier där känslor ändras snabbt är mycket flyktiga. Mindre flyktiga data som vädertrender är lättare att förutsäga och spåra. Men tyvärr är volatiliteten ibland inte inom vår kontroll.

Varför det är viktigt

Big data är extremt komplext och det återstår fortfarande att upptäcka hur man kan frigöra dess potential. Många tror att inom maskininlärning är det bättre ju mer data vi har, men i verkligheten behöver vi fortfarande statistiska metoder för att säkerställa datakvalitet och praktisk tillämpning. Det är omöjligt att använda råa stora data utan att validera eller förklara dem. Samtidigt har stora data inte en stark grund i form av statistik. Därför försöker forskare och analytiker förstå datahanteringsplattformar för att banbrytande metoder som integrerar, aggregerar och tolkar data med hög precision. Några av dessa metoder inkluderar indexering och rensning av data som används i primärdata för att ge mer sammanhang och bibehålla sanningshalten i insikterna.

I det här fallet är det bara pålitliga data som kan ge mervärde till dina analyser och maskininlärningsalgoritmer, och betoningen på dess sanningshalt kommer bara att öka i takt med att datamängderna växer i volym och variation.