Olemme kaikki kuulleet vääristä tiedoista syntyneitä sotatarinoita:
- Tärkeitä paketteja lähetetään väärälle asiakkaalle.
- Toimittajille maksetaan kaksinkertaisia maksuja virheellisten laskutustietojen vuoksi.
- Myyntimahdollisuudet jäävät käyttämättä puutteellisten tuotetietueiden vuoksi.
Tällaiset tarinat eivät ainoastaan saa sinua ja yritystäsi näyttämään hölmöiltä, vaan ne aiheuttavat myös suurta taloudellista vahinkoa. Ja mitä enemmän yrityksesi on riippuvainen tiedosta, sitä suuremmat vahingot ovat mahdollisia.
Tässä tarkastelemme, mitä tiedon laatu on ja miten koko tiedon laadunhallintaprosessia voidaan parantaa.
Mitä tiedon laatu on?
Datan laadun määrittely on hankala tehtävä. Vaikka meillä on intuitiivinen tunne siitä, että se liittyy korkeatasoiseen dataan, tarkkaa määritelmää on vaikea määritellä. Erilaiset instituutiot, tutkijat ja alan asiantuntijat ovat yrittäneet määritellä tiedon eheyden piirteitä tiedon laadun määritelmiinsä.
Esimerkiksi Fleckenstein ja Fellows (2018) viittaavat laadukkaaseen dataan datana, joka ”soveltuu käyttötarkoitukseensa toiminnassa, päätöksenteossa ja suunnittelussa”. Samansuuntaisesti National Institute of Standards and Technology määrittelee datan laadun seuraavasti: ”tiedon käyttökelpoisuus, tarkkuus ja oikeellisuus sen sovelluksen kannalta”.
Jos emme ole opiskelijoita, jotka yrittävät läpäistä tiedonhallintaprosessien tenttiä, miksi välitämme näistä määritelmistä? Edellä esitetyistä määritelmistä käy selvästi ilmi, että molemmat suuntautuvat tiedon laadun pragmaattisiin näkökohtiin. Laadukkaan datan avulla voimme suunnitella, tehdä päätöksiä ja käyttää dataa erilaisissa sovelluksissa.
Mutta miksi tällä on merkitystä? Tiedon laadulla on valtavia vaikutuksia yrityksen tulokseen. Kun meillä on selkeä käsitys (määritelmä) siitä, mikä on datan laatua, voimme mitata ja korjata sitä.
Sukelletaanpa syvemmälle siihen, miksi datan laatu on niin tärkeää.
Miksi datan laatu on tärkeää?
Esittelyssä mainitut sotatarinat puhuvat paljon datan merkityksestä. Mutta datan laatu on tärkeää monista muistakin syistä:
- Datan laatu vaikuttaa tulokseen. Heikkolaatuiset tai korruptoituneet tiedot vaikuttavat liiketoimintaasi taloudellisesta näkökulmasta. Huonolaatuiset tiedot maksavat enemmän kuin miltä aluksi näyttää, alkaen virheiden aiheuttamista lisääntyneistä kustannuksista (myytyjen tavaroiden palautukset, kaksinkertainen laskutus jne.) ja päättyen taloudellisten mahdollisuuksien menettämiseen (alhaisempien toimituskustannusten neuvotteleminen, myynnin jääminen saamatta epätäydellisten tietojen tai asiakkaiden luottamuksen puutteen vuoksi jne.).
- Tietojen laatu vaikuttaa luottamukseen tietoja kohtaan. Kun tietojen laadussa havaitaan ongelmia, luottamus katoaa. Asiakkaat eivät ehkä luota sinuun, koska olet tehnyt virheitä, ja yritysjohtajat eivät ehkä pidä tietoja luotettavina päätöksenteon kannalta. Oli miten oli, heikko datan laatu vaikuttaa pitkällä aikavälillä haitallisesti datan maineeseen ja datasta huolehtiviin henkilöihin.
- Laadukas data on välttämätöntä tietotuotteille. Johdamme yrityksiä aikana, jolloin yhä useammat tuotteet ovat riippuvaisia datasta. Olipa kyse sitten sovelluksista, jotka käyttävät asiakastietoja palvelujen tarjoamiseen (finanssisijoitussovellukset, urheilusovellukset jne.), tai koneoppimistuotteista, jotka perustavat koko suorituskykynsä dataan, laadukkaan datan käyttäminen tuotteessasi on sama asia kuin laadukkaan polttoaineen käyttäminen rakettialuksessasi. Jos polttoaine ei ole korkealaatuista, raketti ei lennä. Tai kuten koneoppimisinsinöörit sanovat: ”Roskat sisään, roskat ulos.” Huono data ei riitä. Sen varmistaminen, että data on niin hyvää kuin mahdollista, on edellytys suorituskykyiselle tuotesarjalle.
Mitkä ovat yleisiä datan laatuun liittyviä ongelmia?
Datan laatuun liittyviä ongelmia on yhtä paljon kuin on data-asiantuntijoita, joilla on sotatarinoita.
Kysy keneltä tahansa data-insinööriltä tai -arkkitehdilta, ja he kertovat mielellään, miten tietokannan suunnittelu tai analytiikan toteutus johti massiiviseen liiketoiminnalliseen katastrofiin.
Ymmärtääksemme datan laatuun liittyviä toistuvia ongelmia, meidän on ryhmiteltävä nämä ongelmat yhteisten teemojen ympärille, joita kutsutaan datan laadun ulottuvuuksiksi.
Datan laadulla on useita ulottuvuuksia, joilla on merkitystä:
- Tietojen saatavuus tai käytettävyys. Tiedon saatavuus on välttämätöntä, jos haluamme analysoida sitä ja tehdä johtopäätöksiä, jotka johtavat kannattaviin liiketoiminnallisiin oivalluksiin. Tietojen saatavuuteen liittyviä ongelmia voi esiintyä missä tahansa ETL-putken vaiheessa. Tiedonkeruu voi olla keskeytynyt, jolloin joidenkin tietokokonaisuuksien tuonti tietokantaan voi jäädä väliin, tai jakamisoikeuksissa voi olla ongelmia, jotka estävät analyytikoita pääsemästä käsiksi analyyseissä tarvittaviin tietoihin. Tämä vaikeuttaa myös eri analyytikoiden välistä yhteistyötä, koska heillä ei ole pääsyä tietoihin, joita tarvitaan yhteiseen työskentelyyn.
- Tietojen tarkkuus tai oikeellisuus. Tarkkuudella tarkoitetaan sitä, kuinka hyvin tiedot kuvastavat todellista maailmaa, jota niillä yritetään kuvata. Tätä tietojen laadun ominaisuutta on vaikea määritellä tietojen laatustandardeissa, koska tarkkuusongelmat ilmenevät monissa eri muodoissa, asiakastietueissa päivittämättä jääneistä muuttuneista osoitteista kirjoitusvirheisiin ja virheellisiin lisäyksiin. Tietojen oikeellisuus varmistetaan yleensä soveltamalla liiketoimintasääntöjä tietojen puhdistusprosessissa, jossa tarkistetaan tietojen oikeellisuus.
- Tietojen täydellisyys tai kattavuus. Puuttuvat tietoarvot ovat aina ongelma tietotoiminnoissa. Tietueiden täydellisyyden varmistaminen on yksi laadukkaan datan ominaisuuksista. Tietojen puhdistusprosessin aikana tietovarannot, joissa on puuttuvia arvoja, joko poistetaan tai ne imputoidaan parhailla estimaateilla korvaaviksi.
- Tietojen johdonmukaisuus, yhtenäisyys tai selkeys. Kun kahdessa samaa yksikköä koskevassa tietueessa on ristiriitaista tietoa, ne eivät ole vain epäjohdonmukaisia – ne myös heikentävät kykyäsi tehdä tietoon perustuvia päätöksiä. Eikä edes ajatella sääntelyn noudattamiseen liittyviä ongelmia, joihin voit joutua, jos talousraporttisi sisältävät epäjohdonmukaisia tietoja…
- Tietojen relevanssi, asiaankuuluvuus tai hyödyllisyys. Olet ehkä kerännyt kaiken maailman datan, mutta se on täysin hyödytöntä, jos se ei ole relevanttia analyysisi ja liiketoimintasi kannalta. Merkityksellisen tai hyödyllisen datan kerääminen (ja lopun hylkääminen) on osa datan laadunvarmistusta.
- Datan ajantasaisuus tai latenssi. Kuinka nopeasti tiedot ovat saatavilla? Jos tietojen keräämisen tietolähteistä ja niiden analysoinnin välillä on viivettä, voimme menettää reaaliaikaisen analytiikan mahdollisuudet. Jos viiveet ovat vieläkin pidempiä, saatamme laatia raportteja ennen kuin kaikki tiedot ovat saatavilla, mikä antaa virheellisen kuvan siitä, mitä raportoidaan (kun tiedot puuttuvat) ja mikä on todellisuudessa totta (kun tiedot ovat viivästyneet).
- Tiedon ainutkertaisuus. Jotkin tiedot ovat lähtökohtaisesti ainutlaatuisia, kuten tuotteen UUID-numero tai asiakkaiden henkilöllisyys. Yleinen ongelma tietojen laadussa on tietueiden päällekkäisyys, jolloin sama tieto lisätään useita kertoja. Tämä ongelma syntyy yleensä tietojen syöttämisen aikana, varsinkin jos se tehdään manuaalisesti.
- Tietojen validiteetti tai kohtuullisuus. Validit tiedot ovat sellaisia, jotka ovat liiketoiminnan tai teknisten rajoitusten mukaisia. Esimerkiksi asiakkaasi ei todennäköisesti ole 140-vuotias, joten tässä on todennäköisesti validiteettiongelma. Validiteetti ei kuitenkaan viittaa vain semanttisiin rajoitteisiin (kuten ikään). Siihen kuuluu myös tietojen jakautuminen ja niiden aggregoidut mittarit. Tarkastelemalla keskiarvoa, mediaania, moodia, keskihajontaa, poikkeamia ja muita tilastollisia ominaisuuksia voit havaita datan validiteetin.
Kuka on vastuussa datan laadusta?
Datan laatu kuuluu kaikille, koska hyvän datan laadun ansiosta kaikki voivat luottaa prosessiin ja tehdä parhaan työnsä. Laadukkaan datan varmistamisesta saattavat kuitenkin olla vastuussa eri henkilöt riippuen siitä, millaista toimintaa harjoitat.
Yrityksissä ja organisaatiorajat ylittävissä käyttöönotoissa on yleensä datanhallintaryhmä, joka vastaa datan laadun varmistamisesta. Tiimiin kuuluu datapäällikkö, joka valvoo koko datan laadunvarmistustoimintaa, sekä teknisiä ristiriitoja ratkovia ammattilaisia ja data stewardeja. Jälkimmäiset vastaavat siitä, että tiedon laatuun liittyvistä kysymyksistä ja ongelmanratkaisuista viestitään yrityksen siilojen yli.
Pienemmissä organisaatioissa, startup-yrityksissä ja kotiyrityksissä vastuu lankeaa usein ”data-asiantuntijan” (datatieteilijän, liiketoiminta-analyytikon tai data-insinöörin) tai jonkun tietohallinto-osaston työntekijän harteille.
Miten nämä tiimit ja henkilöt saavuttavat laadukkaan datan? He käyvät läpi datan laadunhallinnan syklin ja parantavat sitä.
Miten datan laatua parannetaan
Datan laatua parannettaessa on olemassa parhaiden käytäntöjen prosessi:
- Aloita luomalla datan hallintakehys. Tiedonhallintakehyksessä määritetään, mitä standardeja noudatat ja mitä liiketoimintavaatimuksia ja -sääntöjä on sovellettava laadukkaan tiedon saavuttamiseksi. Tähän sisältyy myös sääntelyn noudattaminen eli se, miten tietojen laatukäytäntösi täyttävät Euroopan unionin yleisen tietosuoja-asetuksen (GDPR) ja/tai Kalifornian kuluttajansuojalain (CCPA) määräykset.
- Aseta KPI:t tai tavoitteet tietojen laadulle. Tunnista korjattavat tiedonlaadun ulottuvuudet ja määritä ne KPI:iksi. Yleinen tapa arvioida, kuinka paljon ”datan tarkkuutta” on parannettu, on mitata niiden tietovarantojen (taulukot, tietokannat, ETL-putket jne.) määrää, jotka olet tarkistanut tarkkuusongelmien varalta. Varmista, että otat käyttöön myös lokijärjestelmän tiedonlaadun raportointia varten.
- Profiloi tiedot ja laadi luettelo ongelmista. Tietojen profiloinnilla tarkoitetaan tietojen analysointia, joka tuottaa raportin tietojen jakaumasta, frekvensseistä, keskeisistä tendensseistä ja poikkeamista. Tätä voidaan sitten käyttää tietojen rakenteellisen tason ymmärtämisessä. Laadi tämän ja muiden analyysien avulla luettelo ongelmista, jotka on korjattava.
- Korjaa ongelmat. Se on näin yksinkertaista – korjaa ne. Tämän tekevät yleensä datan ammattilaiset (käytännön datanhoitajat, data-insinöörit ja datatutkijat) puhdistamalla datan (olemme kirjoittaneet pitkän oppaan datan puhdistamisen parhaista käytännöistä – tutustu siihen täällä). Muista kirjata jokainen korjaus, jotta voit luoda raportin kaikista havainnoista.
- Iteroi tai estä ongelmien toistuminen. Tietojen laatuongelmien korjaaminen on syklistä. Kun olet valmis, sinun on tarkistettava tietoalustasi uudelleen varmistaaksesi, että kaikki on standardiesi mukaista ja datahallintakehyksessäsi määriteltyä. Jos näin ei ole, sinun on puhdistettava tiedot uudelleen. Kehittyneillä lähestymistavoilla estetään tietojen laatuongelmien toistuminen, jota käsittelemme tarkemmin seuraavassa osiossa.
Miten varmistat datan laadun pitkällä aikavälillä
Olitpa käynyt läpi datan laadun varmistamisen prosessin aiemmin ja puhdistanut datasi tai et, on useita asioita, jotka vaativat aina huomiotasi:
- Entropia. Riippumatta siitä, kuinka hyvin olet puhdistanut resurssisi aiemmin, data elää ja sitä päivitetään jatkuvasti, joten uusia virheitä tulee todennäköisesti esiin.
- Big datan luonne. Big dataa kuvaavat parhaiten kolme V:tä: määrä, nopeus ja monimuotoisuus. Volume viittaa siihen, miten datan määrä kasvaa joka päivä. Velocity viittaa siihen, miten datan tuotanto kiihtyy. Ja vaihtelevuus viittaa siihen, että datalla on monia eri muotoja: kun aiemmin suurin osa datasta oli relaatiodataa (tietokantataulukot, Excel-tietueet jne.), nykyään suuri osa datasta on strukturoimatonta (tekstitiedostot, verkkosivujen linkkivirrat, videotallenteet jne.). Yritykset, jotka käyttävät dataa päätöksenteossaan tai tuotteissaan, huojuvat big datan ja sen erilaisten etujen ja ongelmien suuntaan. Big datan potentiaalin hyödyntäminen tarkoittaa, että kohtaamme myös haasteita, jotka liittyvät tiedonkeruun infrastruktuurin skaalaamiseen aiheuttamatta ongelmia (kuten vioittuneita ja puuttuvia tietoja) sekä laadunvarmistusprosessin mukauttamiseen jäsentymättömän datan vaatimuksiin.
- Säädökset. GDPR:n ja CCPA:n kaltaiset säädökset ovat vain osa lakisääteisistä vaatimuksista, joita meidän on noudatettava. Uusia säädöksiä otetaan käyttöön ja nykyisiä päivitetään, mikä edellyttää jatkuvaa valvontaa ja muutoksia tekemäämme tietojen laadunvarmistustyöhön.
Miten yritykset siis pitävät tietonsa kurissa, kun kaikki nämä tietojen laatuun vaikuttavat tekijät ovat olemassa?
Vastaus on parhaisiin käytänteisiin perustuvien laatuohjelmistojen avulla. Hyvät ohjelmistot auttavat meitä hallitsemaan dataa monin tavoin sen laadun varmistamiseksi:
- Estää rikkomukset. Hyvä ohjelmisto estää tietojen laatuongelmien syntymisen. Voit esimerkiksi asettaa relaatiotaulullesi (primääriavain)-rajoituksia, jotka estävät päällekkäisten tietueiden lisäämisen.
- Valvoo dataputkea. Hyvä ohjelmisto valvoo data-alustojasi ja ilmoittaa sinulle aina, kun se epäilee vioittunutta dataa, tai hälyttää, kun näin todella tapahtuu (esim. tiedonkeruuputki epäonnistuu).
- Automatisoi kriittiset ETL-prosessit. Tietojen puhdistaminen pelkistyy joukoksi toistuvia komentoja, jotka suoritetaan suosikkikielelläsi (SQL, Python jne.). Hyvän ohjelmiston avulla voit automatisoida nämä ETL-prosessit, jotta voit aina taata, että datasi on laadukasta.
- … ja paljon muuta.
Alusta datan laadun hallintaan
Hyvä ohjelmisto voi auttaa sinua hallitsemaan tietovarantojesi yleistä datan laatua.
Keboola on esimerkki tällaisesta ohjelmistosta. Yhtenäisenä DataOps-alustana voit käyttää Keboolaa:
- Tietoputken määrittämiseen itse alustassa. Koko ETL-prosessi (tietolähteiden louhinta, raakadatan muuntaminen puhdistamalla se ja tietojen lataaminen haluamaasi tietokantaan) onnistuu muutamalla napsautuksella.
- Määritä datan puhdistusprosessi muunnosten sisällä, jotta voit taata tiedonhallintakehyksesi datan laatustandardien noudattamisen.
- Orjoita muunnoksesi ajettavaksi automaattisesti ja voit olla varma siitä, että se tuottaa sinulle aina luotettavaa tietoa.
- Valvo koko dataputken luotettavuutta.
Mutta Keboola menee vielä askeleen pidemmälle:
- Se on täysin yhteensopiva maailmanlaajuisten sääntelyvaatimusten kanssa (GDPR, CCPA ja monet muut).
- Tarjoaa alan parhaan tietoturvatason.
- Mahdollistaa yhteistyön kaikkien datan osapuolten välillä. Pääsyongelmat ovat menneisyyttä Keboolan rakeisen ja intuitiivisen käyttöoikeuksien hallinnan ansiosta.
- Skaalautuu saumattomasti. Haluatko suurta dataa? Ei ole ongelma Keboolan kanssa. Infrastruktuuri huolehtii itsestään, joten et kärsi kasvukivuista, jos päätät ottaa mukaan lisää lähteitä tai erilaisia tietovarantoja.
Valmis kokeilemaan? Tutustu kaikkeen, mitä Keboola tarjoaa tällä (ikuisesti) ilmaisella paketilla. Kyllä, ikuisesti.