Vi har alle hørt de krigshistorier, der er opstået på grund af forkerte data:
- Vigtige pakker sendes til den forkerte kunde.
- Dobbelte betalinger foretages til leverandører på grund af korrupte faktureringsregistreringer.
- Salgsmuligheder går tabt på grund af ufuldstændige produktregistre.
Disse historier får ikke blot dig og din virksomhed til at fremstå som fjolser, de forårsager også store økonomiske skader. Og jo mere din virksomhed er afhængig af data, jo større er risikoen for skade.
Her tager vi et kig på, hvad datakvalitet er, og hvordan hele datakvalitetsstyringsprocessen kan forbedres.
Hvad er datakvalitet?
Det er en vanskelig opgave at definere datakvalitet. Selv om vi har en intuitiv fornemmelse af, at det drejer sig om data af høj standard, er den nøjagtige definition svær at fastlægge. Forskellige institutioner, akademikere og brancheeksperter har forsøgt at specificere karakteristika ved dataintegritet i deres definitioner af datakvalitet.
F.eks. henviser Fleckenstein og Fellows (2018) til data af høj kvalitet som data, der “er egnet til deres tilsigtede anvendelser i forbindelse med drift, beslutningstagning og planlægning”. På lignende vis definerer National Institute of Standards and Technology datakvalitet som “dataenes anvendelighed, nøjagtighed og korrekthed med hensyn til deres anvendelse”.
Så, medmindre vi er studerende, der forsøger at bestå en eksamen i datastyringsprocesser, hvorfor interesserer vi os så for disse definitioner? Det fremgår klart af definitionerne ovenfor, at begge er orienteret mod de pragmatiske aspekter af datakvalitet. At have data af høj kvalitet giver os mulighed for at planlægge, træffe beslutninger og bruge data i forskellige applikationer.
Men hvorfor er det vigtigt? Datakvalitet har store konsekvenser for virksomhedens bundlinje. Når vi har en klar forståelse (definition) af, hvad der udgør datakvalitet, kan vi måle og rette op på det.
Lad os dykke dybere ned i, hvorfor datakvalitet er så vigtig.
Hvorfor er datakvalitet vigtig?
De krigshistorier, der blev nævnt i indledningen, taler sit tydelige sprog om vigtigheden af data. Men datakvalitet er vigtig af en lang række andre grunde:
- Datakvalitet påvirker bundlinjen. Data af lav kvalitet eller beskadigede data vil påvirke din virksomheds drift ud fra et økonomisk synspunkt. Fra øgede udgifter ved fejltagelser (returnering af solgte varer, dobbeltfakturering osv.) til tab af økonomiske muligheder (forhandling af lavere leveringsomkostninger, manglende salg på grund af ufuldstændige data eller manglende kundetillid osv.), koster data af lav kvalitet mere, end det umiddelbart kan se ud.
- Datakvalitet påvirker tilliden til data. Når der opdages problemer med datakvaliteten, mister man tilliden. Kunderne har måske ikke tillid til dig, fordi du har begået fejl, mens virksomhedsledere måske ikke finder dataene pålidelige til beslutningstagning. Uanset hvad, har lav datakvalitet på lang sigt skadelige virkninger på dataenes omdømme og på de mennesker, der tager sig af dem.
- Data af høj kvalitet er nødvendige for dataprodukter. Vi driver virksomheder i en tid, hvor flere og flere produkter er afhængige af data. Uanset om der er tale om applikationer, der bruger kundedata til at levere tjenester (apps til finansielle investeringer, sports-apps osv.) eller maskinlæringsprodukter, der baserer hele deres ydeevne på data, er det at have data af høj kvalitet til dit produkt det samme som at have brændstof af høj kvalitet til dit raketskib. Medmindre brændstoffet er af høj kvalitet, vil raketten ikke kunne flyve. Eller som maskinlæringsingeniører siger: “Garbage in, garbage out.” Dårlige data er ikke nok til at klare det. At sikre, at dataene er så gode som muligt, er en forudsætning for en højtydende produktlinje.
Hvad er de almindelige problemer med datakvalitet?
Der er lige så mange problemer med datakvalitet, som der er dataeksperter med krigshistorier.
Spørg enhver datatekniker eller arkitekt, og de vil med glæde fortælle, hvordan et databasedesign eller en analyseimplementering førte til et massivt forretningsdebacle.
For at forstå de tilbagevendende problemer omkring datakvalitet er vi nødt til at gruppere disse problemer omkring fælles temaer, som er kendt som dimensionerne af datakvalitet.
Der er flere dimensioner af datakvalitet, som har betydning:
- Datatilgængelighed eller tilgængelighed. Adgang til data er nødvendig, hvis vi ønsker at analysere dem og drage konklusioner, der fører til rentable forretningsindsigter. Problemer vedrørende datatilgængelighed kan opstå på et hvilket som helst tidspunkt i ETL-pipelinen. Vores dataindsamling kan være brudt sammen, hvilket betyder, at importen af visse datasæt til vores database springes over, eller vi kan støde på et problem med delingstilladelser, hvilket forhindrer analytikere i at få adgang til de data, der er nødvendige for deres analyse. Dette hæmmer også samarbejdet mellem forskellige analytikere, fordi de mangler adgang til de data, der er nødvendige for at arbejde sammen.
- Datanøjagtighed eller -korrekthed. Nøjagtighed henviser til, hvor godt dataene afspejler den virkelige verden, som de forsøger at beskrive. Denne egenskab ved datakvalitet er vanskelig at specificere i standarder for datakvalitet, fordi nøjagtighedsproblemer antager mange former, lige fra ændrede adresser, der ikke opdateres i kunderegistre, til stavefejl og fejlagtige indsættelser. Dataenøjagtighed bekræftes normalt ved at anvende forretningsregler i dataoprydningsprocessen, som kontrollerer dataene for korrekthed.
- Datakomplethed eller -omfattendehed. Manglende dataværdier udgør altid et problem i forbindelse med databehandlinger. At sikre, at registreringerne er fuldstændige, er et af kendetegnene ved data af høj kvalitet. Under datarensningsprocessen fjernes de dataaktiver med manglende værdier enten, eller de imputeres med de bedste skøn som erstatning.
- Datakonsistens, kohærens eller klarhed. Når to poster om den samme enhed indeholder modstridende oplysninger, er de ikke blot inkonsekvente – de dæmper også din evne til at træffe datadrevne beslutninger. Og lad os slet ikke tænke på de problemer med overholdelse af lovgivningen, som du kan få, hvis dine finansielle rapporter viser inkonsistente data …
- Datarelevans, relevans eller anvendelighed. Du kan have indsamlet alle data i verden, men de er fuldstændig ubrugelige, hvis de ikke er relevante for din analyse og din virksomhed. Indsamling af relevante eller nyttige data (og kassation af resten) er en del af sikringen af datakvaliteten.
- Datatilgængelighed eller latenstid. Hvor hurtigt er dataene tilgængelige for os? Hvis der er en forsinkelse mellem indsamlingen af data fra datakilderne og analysen af dem, kan vi miste potentialet i realtidsanalyser. Hvis forsinkelserne er endnu længere, kan vi udarbejde rapporter, før alle data er tilgængelige, og dermed tegne et forkert billede mellem det, der rapporteres (med manglende data), og det, der faktisk er sandt (med forsinkede data).
- Dataenkelighed. Nogle data er unikke af design, f.eks. UUID-nummeret for dit produkt eller dine kunders identitet. Det almindelige problem i forbindelse med datakvalitet er dobbeltregistreringer, hvor de samme oplysninger indsættes flere gange. Dette problem opstår normalt under indtastning af data, især hvis det sker manuelt.
- Datavaliditet eller rimelighed. Valide data er data, der er i overensstemmelse med de forretningsmæssige eller tekniske begrænsninger. Din kunde er f.eks. sandsynligvis ikke 140 år gammel, så det er sandsynligt, at der er et validitetsproblem her. Men validitet henviser ikke kun til semantiske begrænsninger (som f.eks. alder). Den omfatter også fordelingen af data og de aggregerede metrikker. Ved at se på gennemsnit, median, mode, standardafvigelser, outliers og andre statistiske egenskaber kan du skelne validiteten af dine data.
Hvem er ansvarlig for datakvalitet?
Datakvalitet er alles sag, fordi god datakvalitet gør det muligt for alle at stole på processen og udføre deres bedste arbejde. Men afhængigt af den type operationer, du driver, kan forskellige personer være ansvarlige for at sikre data af høj kvalitet.
I virksomheder og tværorganisatoriske implementeringer er der normalt et dataforvaltningsteam, der har ansvaret for at sikre datakvaliteten. Holdet består af en datamanager, der fører tilsyn med hele datakvalitetssikringen, samt praktikere, der løser tekniske konflikter, og data stewards. Sidstnævnte er ansvarlige for at kommunikere datakvalitetsproblemer og problemløsninger på tværs af siloerne i virksomheden.
I mindre organisationer, nystartede virksomheder og hjemmevirksomheder falder ansvaret ofte på skuldrene af “datamanden” (datavidenskabsmand, forretningsanalytiker eller datatekniker) eller en person fra it-afdelingen.
Hvordan opnår disse teams og personer data af høj kvalitet? De gennemgår cyklussen for datakvalitetsstyring og forbedrer den.
Sådan forbedrer du datakvaliteten
Der er en proces med bedste praksis, når du forbedrer kvaliteten af dine data:
- Start med at etablere en data governance-ramme. Datastyringsrammen angiver, hvilke standarder du vil følge, og hvilke forretningskrav og regler der skal anvendes for at opnå data af høj kvalitet. Dette omfatter også overholdelse af lovgivningen, dvs. hvordan din datakvalitetspraksis opfylder EU’s generelle databeskyttelsesforordning (GDPR) og/eller Californien Consumer Privacy Act (CCPA) regler.
- Opstil KPI’er eller mål for datakvalitet. Identificer de datakvalitetsdimensioner, der skal rettes, og angiv dem som KPI’er. En almindelig måde at vurdere, hvor meget “datagenøjagtigheden” er blevet forbedret på, er at måle antallet af dataaktiver (tabeller, databaser, ETL-pipelines osv.), som du har kontrolleret for nøjagtighedsproblemer. Sørg for, at du også opretter et logningssystem til rapportering af datakvalitet.
- Profilér data, og opret en liste over problemer. Ved dataprofilering forstås en analyse af data, som giver en rapport om datafordeling, hyppigheder, centrale tendenser og afvigelser. Dette kan derefter bruges til at forstå dataenes strukturelle niveau. Brug denne og andre analyser til at opstille en liste over problemer, der skal løses.
- Løser problemerne. Så enkelt er det – løser dem. Dette gøres normalt af datapraktikere (hands-on data managers, dataingeniører og datavidenskabsfolk) ved at rense dataene (vi har skrevet en lang guide om bedste praksis for rensning af data – se den her). Sørg for at logge hver rettelse, så du kan generere en rapport med alle resultaterne.
- Iterér eller forhindrer problemer i at gentage sig. Løsning af datakvalitetsproblemer er cyklisk. Når du er færdig, skal du kontrollere dine dataplatforme igen for at verificere, at alt er i overensstemmelse med dine standarder og opstillet i din datastyringsramme. Hvis det ikke er tilfældet, skal du rense dataene igen. Avancerede tilgange forhindrer datakvalitetsproblemer i at gentage sig, hvilket vi uddyber i næste afsnit.
Sådan sikrer du datakvalitet på lang sigt
Hvorvidt du har været igennem processen med at hævde datakvalitet før og har renset dine data, er der flere problemer, som altid vil kræve din opmærksomhed:
- Entropi. Uanset hvor godt du har renset dine ressourcer før, er data levende og bliver konstant opdateret, så nye fejl vil sandsynligvis dukke op.
- Big data’s natur. Big data er bedst karakteriseret ved de 3 V’er: volumen, hastighed og variation. Volumen henviser til, hvordan mængden af data stiger hver dag. Hastighed vedrører den måde, hvorpå dataproduktionen accelereres. Og variabilitet henviser til, hvordan data tager mange forskellige former: Mens de fleste data tidligere var relationelle (databasetabeller, Excel-registreringer osv.), er mange data i dag ustrukturerede (tekstfiler, linkstreams fra websteder, videooptagelser osv.). Virksomheder, der bruger data i deres beslutningstagning eller produkter, er på vej mod big data og de forskellige fordele og problemer, der er forbundet hermed. At udnytte potentialet i big data betyder, at vi også står over for udfordringerne med at skalere vores infrastruktur til dataindsamling uden at skabe problemer (f.eks. korrupte og manglende data) og med at tilpasse vores kvalitetssikringsproces til kravene i forbindelse med ustrukturerede data.
- Forordninger. Forordninger som GDPR og CCPA er blot nogle af de lovmæssige overensstemmelser, som vi skal overholde. Der indføres nye regler, og eksisterende regler opdateres, hvilket kræver konstant overvågning og ændringer i det datakvalitetssikringsarbejde, som vi udfører.
Så, hvordan holder virksomheder deres data i skak med alle disse faktorer, der påvirker datakvaliteten?
Svaret er gennem kvalitetssoftware, der er baseret på bedste praksis. God software hjælper os med at håndtere data på flere måder for at sikre deres kvalitet:
- Forebygger overtrædelser. God software forhindrer, at der opstår problemer med datakvaliteten. Du kan f.eks. opsætte (primærnøgle-) begrænsninger for din relationelle tabel, som forhindrer, at der indsættes dobbeltposter.
- Overvåger datapipeline. God software overvåger dine dataplatforme og giver dig besked, når den har mistanke om beskadigede data, eller slår alarm, når det rent faktisk sker (f.eks. hvis en dataindsamlingspipeline fejler).
- Automatiserer kritiske ETL-processer. Rensning af data kan koges ned til et sæt gentagne kommandoer, der udføres i dit yndlingssprog (SQL, Python osv.). God software giver dig mulighed for at automatisere disse ETL-processer, så du altid kan garantere, at dine data er af høj kvalitet.
- … og meget mere.
En platform til styring af datakvalitet
God software kan hjælpe dig med at styre den overordnede datakvalitet af dine dataaktiver.
Keboola er et eksempel på en sådan software. Som en forenet DataOps-platform kan du bruge Keboola til at:
- Sæt din datapipeline op i selve platformen. Hele ETL-processen (udtrækning af datakilder, transformation af rådata ved at rense dem og indlæsning af dataene i den ønskede database) kan opnås med blot et par klik.
- Sæt din datarengøringsproces op inden for transformationer for at garantere datakvalitetsstandarderne i din datastyringsramme.
- Orkestrer din transformation til at køre automatisk, og vær sikker på, at den altid vil give dig pålidelige data.
- Overvåg end-to-end datapipeline for pålidelighed.
Men Keboola tager det et skridt videre:
- Det er fuldt ud i overensstemmelse med globale lovkrav (GDPR, CCPA og mange flere).
- Byder de bedste sikkerhedsniveauer i branchen.
- Giver mulighed for samarbejde mellem alle dine datapartnere. Adgangsproblemer hører fortiden til med Keboolas granulære og intuitive tilladelsesstyring.
- Skalerer problemfrit. Vil du have store data? Ikke et problem med Keboola. Infrastrukturen tager sig af sig selv, så du vil ikke lide under vækstsmerter, hvis du vælger at inkludere flere kilder eller forskellige dataaktiver.
Er du klar til at give det et forsøg? Tjek alt det, som Keboola har at tilbyde på dette (for evigt) gratis abonnement. Ja, for evigt.