Vi har alla hört krigshistorier om felaktiga data:
- Viktiga paket skickas till fel kund.
- Dubbla betalningar görs till leverantörer på grund av korrupta fakturaunderlag.
- Säljmöjligheter missas på grund av ofullständiga produktregister.
Dessa historier får inte bara dig och ditt företag att framstå som idioter, de orsakar också stora ekonomiska skador. Och ju mer ditt företag är beroende av data, desto större är risken för skada.
Här tar vi en titt på vad datakvalitet är och hur hela processen för hantering av datakvalitet kan förbättras.
Vad är datakvalitet?
Det är en svårdefinierad uppgift att definiera datakvalitet. Även om vi har en intuitiv känsla av att det handlar om data av hög standard är den exakta definitionen svår att fastställa. Olika institutioner, akademiker och branschexperter har försökt specificera dataintegritetens egenskaper i sina definitioner av datakvalitet.
För exempel hänvisar Fleckenstein och Fellows (2018) till högkvalitativa data som data som ”är lämpliga för sina avsedda användningsområden i verksamhet, beslutsfattande och planering”. På liknande sätt definierar National Institute of Standards and Technology datakvalitet som: ”användbarhet, noggrannhet och korrekthet hos data för dess tillämpning”.
Om vi inte är studenter som försöker klara ett prov i datahanteringsprocesser, varför bryr vi oss då om dessa definitioner? Det framgår tydligt av definitionerna ovan att båda är inriktade på de pragmatiska aspekterna av datakvalitet. Om vi har data av hög kvalitet kan vi planera, fatta beslut och använda data i olika tillämpningar.
Men varför spelar detta någon roll? Datakvalitet har enorma konsekvenser för företagets resultat. Om vi har en tydlig förståelse (definition) av vad som utgör datakvalitet kan vi mäta och åtgärda det.
Låt oss dyka djupare ner i varför datakvalitet är så viktigt.
Varför är datakvalitet viktigt?
Krigsberättelserna som nämndes i inledningen talar sitt tydliga språk om hur viktigt det är med data. Men datakvaliteten är viktig av en mängd andra skäl:
- Datakvalitet påverkar slutresultatet. Data av låg kvalitet eller korrupta data kommer att påverka din affärsverksamhet ur ekonomisk synvinkel. Från ökade kostnader vid misstag (returer av sålda varor, dubbelfakturering etc.) till förlust av ekonomiska möjligheter (förhandling om lägre leveranskostnader, utebliven försäljning på grund av ofullständiga uppgifter eller bristande kundförtroende etc.) kostar data av låg kvalitet mer än vad som först kan verka.
- Datakvalitet påverkar förtroendet för data. När problem med datakvaliteten upptäcks förlorar man förtroendet. Kunderna kanske inte litar på dig eftersom du har gjort misstag, medan företagsledare kanske inte tycker att uppgifterna är tillförlitliga för beslutsfattande. Hur som helst har låg datakvalitet långsiktigt skadliga effekter på uppgifternas rykte och på de personer som tar hand om dem.
- Uppgifter av hög kvalitet är nödvändiga för dataprodukter. Vi driver företag i en tid då allt fler produkter är beroende av data. Oavsett om det handlar om tillämpningar som använder kunddata för att tillhandahålla tjänster (appar för finansiella investeringar, sportappar osv.) eller produkter för maskininlärning som baserar hela sin prestanda på data, är högkvalitativa data för din produkt detsamma som högkvalitativt bränsle för din raket. Om inte bränslet är av högsta kvalitet kommer raketen inte att flyga. Eller som maskininlärningsingenjörer säger: ”Garbage in, garbage out”. Dåliga data räcker inte till. Att se till att data är så bra som möjligt är en förutsättning för en högpresterande produktlinje.
Vad är de vanligaste problemen med datakvalitet?
Det finns lika många problem med datakvalitet som det finns dataexperter med krigshistorier.
Fråga vilken dataingenjör eller -arkitekt som helst och de kommer gärna att berätta hur en databasdesign eller en analysimplementering ledde till ett massivt affärsdebacle.
För att förstå de återkommande problemen kring datakvalitet måste vi gruppera dessa problem kring gemensamma teman, som kallas datakvalitetsdimensioner.
Det finns flera dimensioner av datakvalitet som har betydelse:
- Datatillgänglighet eller tillgänglighet. Tillgång till data är nödvändig om vi vill analysera dem och dra slutsatser som leder till lönsamma affärsinsikter. Problem med datatillgänglighet kan uppstå i vilket skede som helst av ETL-pipelinen. Vår datainsamling kan vara trasig, vilket gör att vissa dataset inte importeras till vår databas, eller så kan vi stöta på ett problem med delningsbehörigheter, vilket hindrar analytiker från att få tillgång till de data som krävs för deras analys. Detta hindrar också samarbetet mellan olika analytiker eftersom de saknar tillgång till de data som behövs för att arbeta tillsammans.
- Datanoggrannhet eller korrekthet. Med korrekthet avses hur väl data återspeglar den verkliga världen som de försöker beskriva. Denna egenskap hos datakvaliteten är svår att specificera i standarder för datakvalitet eftersom problem med noggrannhet tar sig många uttryck, från ändrade adresser som inte uppdateras i kundregister till felstavningar och felaktiga inmatningar. Datanoggrannheten säkerställs vanligen genom att tillämpa affärsregler i datarensningsprocessen, som kontrollerar att uppgifterna är korrekta.
- Uppgifternas fullständighet eller fullständighet. Saknade datavärden utgör alltid ett problem vid databehandlingar. Att se till att posterna är fullständiga är ett av kännetecknen för data av hög kvalitet. Under datarensningsprocessen avlägsnas data med saknade värden antingen eller så imputeras de med de bästa skattningarna som ersättning.
- Datakonsistens, koherens eller tydlighet. När två poster om samma enhet innehåller motstridig information är de inte bara inkonsekventa – de dämpar också din förmåga att fatta datadrivna beslut. Och låt oss inte ens tänka på de problem med efterlevnad av lagstiftningen som du kan råka ut för om dina finansiella rapporter visar inkonsekventa uppgifter…
- Datarelevans, relevans eller användbarhet. Du kan ha samlat in alla data i världen, men de är helt värdelösa om de inte är relevanta för din analys och din verksamhet. Att samla in relevanta eller användbara data (och kasta resten) är en del av datakvalitetssäkringen.
- Datas aktualitet eller latens. Hur snabbt är uppgifterna tillgängliga för oss? Om det uppstår en fördröjning mellan insamling av data från dess datakällor och analys av dem kan vi gå miste om potentialen i realtidsanalyser. Om förseningarna är ännu längre kan vi producera rapporter innan alla data är tillgängliga, vilket ger en felaktig bild av vad som rapporteras (med saknade data) och vad som faktiskt är sant (med försenade data).
- Uppgifter är unika. Vissa data är unika av naturliga skäl, t.ex. din produkts UUID-nummer eller dina kunders identitet. Det vanligaste problemet när det gäller datakvalitet är dubblering av poster, vilket innebär att samma information läggs in flera gånger. Detta problem uppstår vanligtvis vid inmatning av data, särskilt om det sker manuellt.
- Datavaliditet eller rimlighet. Giltiga data är data som är i linje med de affärsmässiga eller tekniska begränsningarna. Din kund är till exempel förmodligen inte 140 år gammal, så det är troligt att det finns ett validitetsproblem här. Men validitet avser inte bara semantiska begränsningar (t.ex. ålder). Den omfattar även fördelningen av data och dess aggregerade mätvärden. Genom att titta på medelvärde, median, läge, standardavvikelser, outliers och andra statistiska egenskaper kan du urskilja validiteten hos dina data.
Vem ansvarar för datakvalitet?
Datakvalitet är allas angelägenhet eftersom en god datakvalitet gör det möjligt för alla att lita på processen och göra sitt bästa arbete. Beroende på vilken typ av verksamhet du bedriver kan dock olika personer vara ansvariga för att säkerställa högkvalitativa data.
I företag och organisationsövergripande installationer finns det vanligtvis ett datahanteringsteam som ansvarar för att säkerställa datakvaliteten. Teamet består av en dataansvarig, som övervakar hela verksamheten för säkerställande av datakvalitet, samt praktiker som löser tekniska konflikter och dataförvaltare. De sistnämnda ansvarar för att kommunicera datakvalitetsfrågor och problemlösningar över silos inom verksamheten.
I mindre organisationer, nystartade företag och hemföretag faller ansvaret ofta på axlarna på ”datapersonen” (datavetare, affärsanalytiker eller dataingenjör) eller någon från IT-avdelningen.
Hur uppnår dessa team och individer data av hög kvalitet? De går igenom cykeln för hantering av datakvalitet och förbättrar den.
Hur man förbättrar datakvaliteten
Det finns en process med bästa praxis när man förbättrar datakvaliteten:
- Börja med att inrätta ett ramverk för datastyrning. Ramverket för datastyrning anger vilka standarder du ska följa och vilka verksamhetskrav och regler som måste tillämpas för att uppnå data av hög kvalitet. Detta omfattar även regelefterlevnad, dvs. hur dina datakvalitetsrutiner uppfyller EU:s allmänna dataskyddsförordning (GDPR) och/eller bestämmelserna i California Consumer Privacy Act (CCPA).
- Skapa KPI:er eller mål för datakvalitet. Identifiera de datakvalitetsdimensioner som behöver åtgärdas och ange dem som KPI:er. Ett vanligt sätt att bedöma hur mycket ”datanoggrannheten” har förbättrats är att mäta antalet datatillgångar (tabeller, databaser, ETL-pipelines osv.) som du har kontrollerat för att upptäcka problem med noggrannheten. Se till att du också inrättar ett loggningssystem för rapportering av datakvalitet.
- Profilera data och upprätta en lista över problem. Med dataprofilering avses en analys av data som ger en rapport om datafördelning, frekvenser, centrala tendenser och avvikelser. Detta kan sedan användas för att förstå datans strukturella nivå. Använd denna och andra analyser för att sammanställa en lista över problem som behöver åtgärdas.
- Fixa problemen. Det är så enkelt som det är – åtgärda dem. Detta görs vanligtvis av datapraktiker (praktiska dataansvariga, dataingenjörer och datavetare) genom att rensa data (vi har skrivit en lång guide om de bästa metoderna för att rensa data – kolla in den här). Se till att logga varje åtgärd så att du kan generera en rapport med alla resultat.
- Iterera eller förhindra att problem återkommer. Att åtgärda datakvalitetsproblem är cykliskt. När du är klar måste du kontrollera dina dataplattformar på nytt för att verifiera att allt är i enlighet med dina standarder och som fastställts i ditt ramverk för datastyrning. Om det inte är det måste du rensa data på nytt. Avancerade metoder förhindrar att datakvalitetsproblem återkommer, vilket vi utvecklar i nästa avsnitt.
Hur man säkerställer datakvalitet på lång sikt
Oavsett om du har gått igenom processen med att hävda datakvalitet tidigare och har rensat dina data eller inte, finns det flera frågor som alltid kommer att kräva din uppmärksamhet:
- Entropi. Oavsett hur väl du har rensat dina resurser tidigare är data levande och uppdateras ständigt, så det är troligt att nya fel kommer att dyka upp.
- Stor datakaraktär. Stora data kännetecknas bäst av de 3 V:na: volym, hastighet och variation. Volym avser hur mängden data ökar varje dag. Velocity avser hur dataproduktionen accelereras. Och variation hänvisar till hur data tar sig många olika former: medan de flesta data tidigare var relationella (databastabeller, Excel-poster osv.) är många data numera ostrukturerade (textfiler, länkströmmar från webbplatser, videoinspelningar osv.) Företag som använder data i sitt beslutsfattande eller i sina produkter svänger mot big data och dess olika fördelar och problem. Att utnyttja potentialen hos stora data innebär att vi också står inför utmaningarna att skala vår infrastruktur för datainsamling utan att orsaka problem (t.ex. korrupta och saknade data), samt att anpassa vår kvalitetssäkringsprocess till kraven från ostrukturerade data.
- Förordningar. Förordningar som GDPR och CCPA är bara några av de rättsliga krav som vi måste följa. Nya regler införs och befintliga regler uppdateras, vilket kräver ständig övervakning och förändringar av det arbete med datakvalitetssäkring som vi utför.
Så, hur håller företag sina data i schack med alla dessa faktorer som påverkar datakvaliteten?
Svaret är genom kvalitetsmjukvara som är baserad på bästa praxis. Bra programvara hjälper oss att hantera data på flera olika sätt för att säkerställa dess kvalitet:
- Förhindrar överträdelser. Bra programvara förhindrar att datakvalitetsproblem uppstår. Du kan till exempel ställa in begränsningar (primärnyckel) för din relationella tabell som förhindrar att dubbla poster läggs in.
- Övervakar datapipeline. Bra programvara övervakar dina dataplattformar och meddelar dig när den misstänker korrupta data, eller slår larm när det faktiskt händer (t.ex. om en datainsamlingspipeline misslyckas).
- Automatiserar kritiska ETL-processer. Rensning av data kokar ner till en uppsättning repetitiva kommandon som utförs i ditt favoritspråk (SQL, Python osv.). Med en bra programvara kan du automatisera dessa ETL-processer för att alltid garantera att dina data är av hög kvalitet.
- … och mycket mer.
En plattform för att hantera datakvalitet
Goda programvaror kan hjälpa dig att hantera den övergripande datakvaliteten för dina datatillgångar.
Keboola är ett exempel på en sådan programvara. Som en enhetlig DataOps-plattform kan du använda Keboola för att:
- Skapa din datapipeline inom själva plattformen. Hela ETL-processen (utvinning av datakällor, omvandling av rådata genom rensning och laddning av data till valfri databas) kan utföras med bara några få klick.
- Sätt upp din datarengöringsprocess inom transformationer för att garantera datakvalitetsnormerna i ditt ramverk för datastyrning.
- Orkestrera din transformation så att den körs automatiskt och var säker på att den alltid kommer att förse dig med tillförlitliga data.
- Övervaka datapipeline från början till slut för tillförlitlighet.
Men Keboola tar det ett steg längre:
- Det är fullt kompatibelt med globala regulatoriska krav (GDPR, CCPA och många fler).
- Erbjuder de bästa säkerhetsnivåerna i branschen.
- Gör det möjligt att samarbeta mellan alla dina dataparter. Tillgångsproblem hör till det förflutna med Keboolas granulära och intuitiva behörighetskontroll.
- Skala sömlöst. Vill du ha stora data? Inga problem med Keboola. Infrastrukturen tar hand om sig själv, så du kommer inte att drabbas av växtvärk om du väljer att inkludera fler källor eller olika datatillgångar.
Är du redo att ge det ett försök? Kolla in allt som Keboola har att erbjuda i denna (för evigt) kostnadsfria plan. Ja, för alltid.