Wat is datakwaliteit, waarom is het belangrijk, en hoe kunt u het verbeteren?

We kennen allemaal de oorlogsverhalen die het gevolg zijn van verkeerde gegevens:

Belangrijke pakketten worden naar de verkeerde klant gestuurd.
Dubbele betalingen aan leveranciers als gevolg van corrupte facturatiegegevens.
Verkoopkansen worden gemist vanwege onvolledige productadministratie.

Deze verhalen zetten niet alleen u en uw bedrijf voor schut, ze veroorzaken ook grote economische schade. En hoe meer uw onderneming afhankelijk is van gegevens, hoe groter de kans op schade.

Hier bekijken we wat datakwaliteit is en hoe het hele proces van datakwaliteitsbeheer kan worden verbeterd.

Wat is datakwaliteit?

Het definiëren van datakwaliteit is een ongrijpbare taak. Hoewel we intuïtief aanvoelen dat het gaat om gegevens van hoge kwaliteit, is de precieze definitie moeilijk vast te stellen. Diverse instellingen, academici en deskundigen uit de sector hebben getracht de kenmerken van gegevensintegriteit te specificeren in hun definities van gegevenskwaliteit.

Fleckenstein en Fellows (2018) verwijzen bijvoorbeeld naar gegevens van hoge kwaliteit als gegevens die “geschikt zijn voor het beoogde gebruik in operaties, besluitvorming en planning”. In een soortgelijke geest definieert het National Institute of Standards and Technology datakwaliteit als: “de bruikbaarheid, nauwkeurigheid en juistheid van gegevens voor de toepassing ervan”.

Dus, tenzij we een student zijn die probeert te slagen voor een examen in gegevensbeheerprocessen, waarom maken we ons druk om deze definities? Uit de bovenstaande definities blijkt duidelijk dat beide gericht zijn op de pragmatische aspecten van gegevenskwaliteit. Met gegevens van hoge kwaliteit kunnen we plannen, beslissingen nemen en gegevens gebruiken in verschillende toepassingen.

Maar waarom is dit van belang? De kwaliteit van gegevens heeft enorme gevolgen voor het bedrijfsresultaat. Als we een duidelijk begrip (definitie) hebben van wat gegevenskwaliteit inhoudt, kunnen we deze kwaliteit meten en verbeteren.

Laten we eens dieper ingaan op de vraag waarom gegevenskwaliteit zo belangrijk is.

Waarom is gegevenskwaliteit belangrijk?

De oorlogsverhalen die in de inleiding zijn genoemd, spreken boekdelen over het belang van gegevens. Maar de kwaliteit van gegevens is om nog veel meer redenen belangrijk:

De kwaliteit van gegevens is van invloed op het eindresultaat. Slechte of corrupte gegevens beïnvloeden uw bedrijfsvoering vanuit financieel oogpunt. Van hogere kosten bij het maken van fouten (retouren van verkochte goederen, dubbele facturering, enz.) tot verlies van financiële kansen (onderhandelen over lagere leveringskosten, mislopen van omzet door onvolledige gegevens of gebrek aan vertrouwen van klanten, enz.), gegevens van lage kwaliteit kosten meer dan het op het eerste gezicht lijkt.
Datakwaliteit beïnvloedt het vertrouwen in gegevens. Wanneer problemen met de datakwaliteit worden ontdekt, verliest u vertrouwen. Klanten vertrouwen u misschien niet omdat u fouten hebt gemaakt, terwijl bedrijfsleiders de gegevens misschien niet betrouwbaar vinden voor de besluitvorming. Hoe dan ook, lage datakwaliteit heeft op de lange termijn schadelijke gevolgen voor de reputatie van data en de mensen die ervoor zorgen.
Data van hoge kwaliteit zijn noodzakelijk voor dataproducten. We runnen bedrijven in een tijdperk waarin steeds meer producten afhankelijk zijn van gegevens. Of het nu gaat om toepassingen die klantgegevens gebruiken om diensten te leveren (financiële beleggingsapps, sportapps, enz.) tot machine learning-producten die hun volledige prestaties baseren op gegevens, het hebben van hoogwaardige gegevens voor uw product is hetzelfde als het hebben van hoogwaardige brandstof voor uw raketschip. Tenzij de brandstof van superieure kwaliteit is, zal de raket niet vliegen. Of zoals machine learning ingenieurs zeggen: “Garbage in, garbage out. Slechte gegevens zijn gewoon niet goed genoeg. Ervoor zorgen dat de gegevens zo goed mogelijk zijn, is een eerste vereiste voor een goed presterende productlijn.

Wat zijn de meest voorkomende problemen met gegevenskwaliteit?

Er zijn evenveel problemen met gegevenskwaliteit als er gegevensdeskundigen zijn met oorlogsverhalen.

Vraag een data-engineer of -architect en hij of zij zal u graag vertellen hoe een databaseontwerp of analytische implementatie tot een enorm zakelijk debacle heeft geleid.
Om de steeds terugkerende problemen rond gegevenskwaliteit te begrijpen, moeten we deze problemen groeperen rond gemeenschappelijke thema’s, die bekend staan als de dimensies van gegevenskwaliteit.

Er zijn meerdere dimensies van gegevenskwaliteit die van belang zijn:

Toegankelijkheid of beschikbaarheid van gegevens. Toegang tot gegevens is noodzakelijk als we ze willen analyseren en conclusies willen trekken die tot winstgevende bedrijfsinzichten leiden. Problemen met de toegankelijkheid van gegevens kunnen zich in elk stadium van de ETL-pijplijn voordoen. Onze gegevensverzameling kan defect zijn, waardoor de import van sommige datasets in onze database wordt overgeslagen, of we kunnen een probleem ondervinden met het delen van permissies, waardoor analisten geen toegang hebben tot de gegevens die nodig zijn voor hun analyse. Dit belemmert ook de samenwerking tussen verschillende analisten, omdat zij geen toegang hebben tot de gegevens die nodig zijn om samen te werken.
Nauwkeurigheid of juistheid van gegevens. Nauwkeurigheid verwijst naar hoe goed de gegevens de echte wereld weergeven die ze proberen te beschrijven. Dit kenmerk van gegevenskwaliteit is moeilijk te specificeren in gegevenskwaliteitsnormen, omdat nauwkeurigheidsproblemen vele vormen kunnen aannemen, van veranderende adressen die niet worden bijgewerkt in klantenbestanden tot spelfouten en foutieve invoegingen. De nauwkeurigheid van de gegevens wordt gewoonlijk gewaarborgd door bedrijfsregels toe te passen in het proces van gegevensopschoning, dat de gegevens op juistheid controleert.
Volledigheid of volledigheid van gegevens. Ontbrekende gegevenswaarden vormen altijd een probleem bij gegevensverwerking. Ervoor zorgen dat de records volledig zijn, is een van de kenmerken van gegevens van hoge kwaliteit. Bij het opschonen van de gegevens worden de ontbrekende waarden ofwel verwijderd, ofwel vervangen door de beste schattingen.
Consistentie, coherentie of duidelijkheid van de gegevens. Wanneer twee records over dezelfde eenheid tegenstrijdige informatie bevatten, zijn ze niet alleen inconsistent – ze belemmeren ook uw vermogen om gegevensgestuurde beslissingen te nemen. En dan hebben we het nog niet eens over de problemen met de naleving van de regelgeving die u kunt krijgen als uw financiële rapporten inconsistente gegevens bevatten…
Relevantie, relevantie of bruikbaarheid van gegevens. U kunt alle gegevens van de wereld hebben verzameld, maar het is volkomen nutteloos als het niet relevant is voor uw analyse en uw bedrijf. Het verzamelen van relevante of bruikbare gegevens (en het weggooien van de rest) maakt deel uit van de kwaliteitsborging van gegevens.
Tijdigheid van gegevens of latentie. Hoe snel zijn de gegevens voor ons beschikbaar? Als er vertraging optreedt tussen het verzamelen van de gegevens uit de gegevensbronnen en het analyseren ervan, lopen we het potentieel van real-time analytics mis. Als de vertragingen nog groter zijn, kunnen we rapporten produceren voordat alle gegevens beschikbaar zijn, waardoor een onjuist beeld ontstaat tussen wat wordt gerapporteerd (met ontbrekende gegevens) en wat feitelijk waar is (met vertraagde gegevens).
Uniciteit van gegevens. Sommige gegevens zijn uniek door ontwerp, zoals het UUID-nummer van uw product, of de identiteit van uw klanten. Het meest voorkomende probleem bij gegevenskwaliteit is recordduplicatie, waarbij dezelfde informatie meerdere malen wordt ingevoerd. Dit probleem doet zich meestal voor bij de invoer van gegevens, vooral als die handmatig gebeurt.
Geldigheid of redelijkheid van gegevens. Geldige gegevens zijn gegevens die in overeenstemming zijn met de zakelijke of technische beperkingen. Bijvoorbeeld, uw klant is waarschijnlijk niet 140 jaar oud, dus het is waarschijnlijk dat er een validiteitsprobleem hier. Maar validiteit heeft niet alleen betrekking op semantische beperkingen (zoals leeftijd). Het gaat ook om de verdeling van gegevens en de geaggregeerde metriek. Door te kijken naar het gemiddelde, de mediaan, de modus, standaardafwijkingen, uitschieters en andere statistische kenmerken kunt u de validiteit van uw gegevens bepalen.

Wie is verantwoordelijk voor gegevenskwaliteit?

Gegevenskwaliteit is een zaak van iedereen, omdat een goede gegevenskwaliteit iedereen in staat stelt het proces te vertrouwen en zijn beste werk te doen. Afhankelijk van het soort activiteiten dat u uitvoert, kunnen echter verschillende mensen verantwoordelijk zijn voor het waarborgen van gegevens van hoge kwaliteit.

In ondernemingen en organisatieoverschrijdende implementaties is er gewoonlijk een datamanagementteam dat verantwoordelijk is voor het waarborgen van de gegevenskwaliteit. Het team bestaat uit een datamanager, die toezicht houdt op de hele operatie voor het waarborgen van de gegevenskwaliteit, en uit praktijkmensen die technische conflicten oplossen en data stewards. Deze laatsten zijn verantwoordelijk voor de communicatie over gegevenskwaliteitsproblemen en probleemoplossingen binnen de bedrijfssilo’s.

In kleinere organisaties, startups en thuisbedrijven valt de verantwoordelijkheid vaak op de schouders van de ‘gegevenspersoon’ (gegevenswetenschapper, bedrijfsanalist of gegevensingenieur) of iemand van de IT-afdeling.

Hoe komen deze teams en personen tot kwalitatief hoogwaardige gegevens? Ze doorlopen de cyclus van datakwaliteitsbeheer en verbeteren deze.

Hoe verbeter je de datakwaliteit

Er is een proces van best practices bij het verbeteren van de kwaliteit van je data:

Begin met het opzetten van een data governance framework. Het data governance framework specificeert welke standaarden u zult volgen en welke business requirements en regels moeten worden toegepast om tot data van hoge kwaliteit te komen. Dit omvat ook naleving van de regelgeving, d.w.z. hoe uw datakwaliteitspraktijken voldoen aan de General Data Protection Regulation (GDPR) van de Europese Unie en / of de California Consumer Privacy Act (CCPA) regelgeving.
Stel KPI’s of doelstellingen voor gegevenskwaliteit op. Identificeer de datakwaliteitsdimensies die moeten worden gefixeerd en specificeer ze als KPI’s. Een veelgebruikte manier om te beoordelen in hoeverre de ‘gegevensnauwkeurigheid’ is verbeterd, is het meten van het aantal gegevensassets (tabellen, databases, ETL-pipelines, enz.) dat u hebt gecontroleerd op nauwkeurigheidsproblemen. Zorg ervoor dat u ook een logsysteem opzet voor rapportage over datakwaliteit.
Profileer gegevens en stel een lijst van problemen op. Data profiling verwijst naar de analyse van gegevens die een rapport oplevert over gegevensverdeling, frequenties, centrale tendensen, en afwijkingen. Dit kan vervolgens worden gebruikt om inzicht te krijgen in het structurele niveau van gegevens. Gebruik deze en andere analyses om een lijst op te stellen van problemen die moeten worden opgelost.
Los de problemen op. Zo simpel is het – los ze op. Dit wordt meestal gedaan door data beoefenaars (hands-on data managers, data engineers, en data scientists) door het opschonen van de gegevens (we hebben een lange gids geschreven over de beste praktijken voor het opschonen van gegevens – bekijk het hier). Zorg ervoor dat je elke fix logt, zodat je een rapport kunt genereren van alle bevindingen.
Itereren of voorkomen dat issues terugkeren. Het oplossen van datakwaliteitsproblemen is cyclisch. Als u klaar bent, moet u uw dataplatforms opnieuw controleren om te verifiëren of alles voldoet aan uw normen en is ingesteld in uw data governance framework. Als dat niet het geval is, moet u de gegevens opnieuw opschonen. Geavanceerde benaderingen voorkomen dat problemen met de gegevenskwaliteit zich opnieuw voordoen, waarop we in de volgende paragraaf dieper ingaan.

Hoe u gegevenskwaliteit op de lange termijn kunt waarborgen

Of u nu wel of niet eerder het proces van het bewaken van gegevenskwaliteit hebt doorlopen en uw gegevens hebt opgeschoond, er zijn verschillende kwesties die altijd uw aandacht zullen vragen:

Entropie. Het maakt niet uit hoe goed u uw bronnen eerder hebt opgeschoond, gegevens leven en worden voortdurend bijgewerkt, dus nieuwe fouten zullen waarschijnlijk naar boven komen.
De aard van big data. Big data wordt het best gekarakteriseerd door de 3 V’s: volume, velocity, en variety. Volume verwijst naar de manier waarop de hoeveelheid gegevens elke dag toeneemt. Snelheid heeft betrekking op de manier waarop de productie van gegevens wordt versneld. En variabiliteit verwijst naar hoe gegevens vele verschillende vormen aannemen: terwijl de meeste gegevens in het verleden relationeel waren (databasetabellen, Excel-records, enz.), zijn veel gegevens tegenwoordig ongestructureerd (tekstbestanden, websitelinkstreams, video-opnamen, enz.). Bedrijven die gegevens gebruiken in hun besluitvorming of producten neigen naar big data en de verschillende voordelen en problemen daarvan. Het potentieel van big data benutten betekent ook dat we voor de uitdagingen komen te staan om onze infrastructuur voor gegevensverzameling te schalen zonder problemen te veroorzaken (zoals corrupte en ontbrekende gegevens), en om ons kwaliteitsborgingsproces aan te passen aan de eisen van ongestructureerde gegevens.
Regelgeving. Verordeningen zoals GDPR en CCPA zijn slechts enkele van de wettelijke nalevingen waaraan we ons moeten houden. Er worden nieuwe voorschriften geïntroduceerd en bestaande voorschriften worden bijgewerkt, wat voortdurend toezicht en veranderingen vereist in het werk dat we doen om de kwaliteit van gegevens te waarborgen.

Dus, hoe houden bedrijven hun gegevens onder controle met al deze factoren die van invloed zijn op de kwaliteit van gegevens?

Het antwoord is door middel van kwaliteitssoftware die is gebaseerd op best practices. Goede software helpt ons om gegevens op verschillende manieren te beheren en zo de kwaliteit ervan te waarborgen:

Voorkomt schendingen. Goede software voorkomt dat er problemen ontstaan met de kwaliteit van de gegevens. U zou bijvoorbeeld (primaire sleutel) constraints voor uw relationele tabel kunnen instellen die voorkomen dat dubbele records worden ingevoegd.
Bewaakt datapijplijn. Goede software bewaakt uw dataplatforms en waarschuwt u wanneer het corrupte gegevens vermoedt, of slaat alarm wanneer dit daadwerkelijk gebeurt (bijvoorbeeld wanneer een gegevensverzamelingspijplijn faalt).
Automatiseer kritieke ETL-processen. Het opschonen van gegevens komt neer op een reeks repetitieve commando’s die in uw favoriete taal (SQL, Python, enz.) worden uitgevoerd. Goede software stelt u in staat deze ETL-processen te automatiseren om altijd te garanderen dat uw gegevens van hoge kwaliteit zijn.
… en meer.

Een platform om gegevenskwaliteit te beheren

Goede software kan u helpen de algehele gegevenskwaliteit van uw datamiddelen te beheren.

Keboola is een voorbeeld van dergelijke software. Als verenigd DataOps-platform kunt u Keboola gebruiken om:

Uw datapijplijn binnen het platform zelf op te zetten. Het hele ETL-proces (het extraheren van gegevensbronnen, het transformeren van ruwe gegevens door ze op te schonen, en het laden van de gegevens in uw database van keuze) kan worden bereikt in slechts een paar klikken.
Opzetten van uw data cleaning proces binnen transformaties om de data kwaliteitsnormen van uw data governance framework te garanderen.
Orkestreer uw transformatie om automatisch uit te voeren en wees er zeker van dat het u altijd betrouwbare gegevens zal opleveren.
Bewaak de betrouwbaarheid van de end-to-end-datapijplijn.

Maar Keboola gaat nog een stap verder:

Het voldoet volledig aan de eisen van wereldwijde regelgeving (GDPR, CCPA en nog veel meer).
Biedt de beste beveiligingsniveaus in de branche.
Maakt samenwerking tussen al uw gegevenspartijen mogelijk. Toegangsproblemen behoren tot het verleden met Keboola’s granulaire en intuïtieve toestemmingscontrole.
Schaalt naadloos. Wilt u big data? Geen probleem met Keboola. De infrastructuur zorgt voor zichzelf, dus je zult geen last hebben van groeipijnen als je ervoor kiest om meer bronnen of verschillende gegevensbronnen op te nemen.

Klaar om het eens uit te proberen? Bekijk alles wat Keboola te bieden heeft op dit (voor altijd) gratis plan. Ja, voor altijd.

Nieuwsbrief