Mi az adatminőség, miért fontos, és hogyan lehet javítani rajta?

Mindannyian hallottuk már a rossz adatokból született háborús történeteket:

Fontos csomagokat küldtek rossz ügyfélnek.
Dupla kifizetések történtek a beszállítóknak a hibás számlázási nyilvántartások miatt.
Eladási lehetőségeket szalasztanak el a hiányos terméknyilvántartások miatt.

Ezek a történetek nem csak bolondot csinálnak Önből és a vállalatából, hanem nagy gazdasági károkat is okoznak. És minél jobban támaszkodik a vállalkozása az adatokra, annál nagyobb a kár lehetősége.

Itt megnézzük, mi az adatminőség, és hogyan javítható az egész adatminőség-kezelési folyamat.

Mi az adatminőség?

Az adatminőség meghatározása megfoghatatlan feladat. Bár intuitív érzésünk van arról, hogy a magas színvonalú adatokra vonatkozik, a pontos definíciót nehéz meghatározni. Különböző intézmények, akadémikusok és ipari szakértők próbálták az adatintegritás jellemzőit meghatározni az adatminőség definícióiban.

Fleckenstein és Fellows (2018) például a kiváló minőségű adatokat olyan adatoknak nevezi, amelyek “alkalmasak a műveletekben, a döntéshozatalban és a tervezésben való rendeltetésszerű felhasználásra”. Hasonló módon a National Institute of Standards and Technology az adatminőséget a következőképpen határozza meg: “az adatok hasznossága, pontossága és helyessége az alkalmazás szempontjából”.

Hát, hacsak nem vagyunk olyan diákok, akik vizsgát próbálnak tenni az adatkezelési folyamatokból, miért érdekelnek minket ezek a definíciók? A fenti definíciókból egyértelmű, hogy mindkettő az adatminőség pragmatikus szempontjaira irányul. A jó minőségű adatok birtokában tervezhetünk, döntéseket hozhatunk, és felhasználhatjuk az adatokat különböző alkalmazásokban.

De miért fontos ez? Az adatminőségnek óriási kihatásai vannak az üzleti eredményre. Ha világosan értjük (definiáljuk), hogy mi az adatminőség, akkor mérni és javítani tudjuk azt.

Merüljünk el mélyebben abban, hogy miért olyan fontos az adatminőség.

Miért fontos az adatminőség?

A bevezetőben említett hadtörténetek sokat mondanak az adatok fontosságáról. Az adatok minősége azonban számos más okból is fontos:

Az adatminőség befolyásolja az eredményt. A rossz minőségű vagy sérült adatok pénzügyi szempontból befolyásolják az üzleti tevékenységet. A hibák elkövetésekor megnövekedett költségektől kezdve (eladott áruk visszaküldése, kettős számlázás stb.) a pénzügyi lehetőségek elvesztéséig (alacsonyabb ellátási költségek kialkudása, hiányos adatok vagy az ügyfelek bizalmának hiánya miatt elmaradt eladások stb. miatt), az alacsony minőségű adatok többe kerülnek, mint amennyire elsőre látszik.
Az adatminőség befolyásolja az adatokba vetett bizalmat. Ha az adatminőséggel kapcsolatos problémákra derül fény, elveszíti a bizalmat. Az ügyfelek esetleg nem bíznak Önben, mert hibákat követett el, míg az üzleti vezetők esetleg nem találják megbízhatónak az adatokat a döntéshozatalhoz. Bármelyik esetről is legyen szó, az alacsony adatminőség hosszú távon káros hatással van az adatok és az azokat kezelő személyek hírnevére.
Az adattermékekhez kiváló minőségű adatokra van szükség. Olyan korban működtetünk vállalkozásokat, amikor egyre több termék függ az adatoktól. Legyen szó akár olyan alkalmazásokról, amelyek az ügyfelek adatait használják fel szolgáltatások nyújtásához (pénzügyi befektetési alkalmazások, sportalkalmazások stb.), akár olyan gépi tanulási termékekről, amelyek teljes teljesítményüket adatokra alapozzák, a termékéhez szükséges kiváló minőségű adatokkal rendelkezni olyan, mintha a rakétahajójához jó minőségű üzemanyagot biztosítanánk. Ha az üzemanyag nem kiváló minőségű, a rakéta nem fog repülni. Vagy ahogy a gépi tanulási mérnökök mondják: “Szemét be, szemét ki.” A rossz adatok egyszerűen nem elégségesek. Annak biztosítása, hogy az adatok a lehető legjobbak legyenek, előfeltétele a nagy teljesítményű termékcsaládnak.

Melyek a leggyakoribb adatminőségi problémák?

Az adatminőséggel kapcsolatban annyi probléma van, ahány adatszakértő van háborús történetekkel.

Kérdezzen meg bármelyik adatmérnököt vagy építészmérnököt, és szívesen megosztja, hogyan vezetett egy adatbázis-tervezés vagy analitikai megvalósítás hatalmas üzleti kudarchoz.
Az adatminőséggel kapcsolatos visszatérő problémák megértéséhez ezeket a problémákat közös témák köré kell csoportosítanunk, amelyeket az adatminőség dimenzióinak nevezünk.

Az adatminőségnek több dimenziója van, amelyek számítanak:

Az adatok hozzáférhetősége vagy rendelkezésre állása. Az adatokhoz való hozzáférés szükséges, ha elemezni akarjuk azokat, és olyan következtetéseket akarunk levonni, amelyek nyereséges üzleti meglátásokhoz vezetnek. Az adatok hozzáférhetőségével kapcsolatos problémák az ETL-csatorna bármely szakaszában előfordulhatnak. Az adatgyűjtésünk megszakadhat, ami miatt egyes adatkészletek adatbázisunkba történő importálása kimarad, vagy a megosztási jogosultságokkal kapcsolatos problémába ütközhetünk, ami megakadályozza, hogy az elemzők hozzáférjenek az elemzésükhöz szükséges adatokhoz. Ez a különböző elemzők közötti együttműködést is akadályozza, mivel nem férnek hozzá a közös munkához szükséges adatokhoz.
Az adatok pontossága vagy helyessége. A pontosság arra utal, hogy az adatok mennyire jól tükrözik azt a valós világot, amelyet leírni próbálnak. Az adatminőségnek ezt a jellemzőjét nehéz meghatározni az adatminőségi szabványokban, mert a pontossági problémák sokféle formában jelentkeznek, az ügyfélrekordokon belül nem frissített címek változásától kezdve a helyesírási hibákon át a helytelen bejegyzésekig. Az adatok pontosságát általában az adattisztítási folyamaton belüli üzleti szabályok alkalmazásával biztosítják, amely ellenőrzi az adatok helyességét.
Az adatok teljessége vagy teljessége. A hiányzó adatértékek mindig problémát jelentenek az adatműveleteken belül. A rekordok teljességének biztosítása a jó minőségű adatok egyik jellemzője. Az adattisztítási folyamat során a hiányzó értékekkel rendelkező adatállományokat vagy eltávolítják, vagy a legjobb becslésekkel imputálják őket helyettesítésként.
Adatkonzisztencia, koherencia vagy egyértelműség. Ha két, ugyanarról az egységről szóló rekord egymásnak ellentmondó információkat tartalmaz, akkor azok nem csak ellentmondásosak – hanem rontják az adatvezérelt döntések meghozatalának képességét is. És akkor még ne is gondoljunk a szabályozási megfelelési problémákra, amelyekbe kerülhet, ha pénzügyi jelentései ellentmondásos adatokat mutatnak…
Az adatok relevanciája, helytállósága vagy hasznossága. Lehet, hogy a világ összes adatát összegyűjtötte, de teljesen haszontalan, ha nem relevánsak az elemzés és az üzlet szempontjából. A releváns vagy hasznos adatok összegyűjtése (és a többi elvetése) az adatminőségbiztosítás része.
Az adatok időszerűsége vagy késleltetése. Milyen gyorsan állnak rendelkezésünkre az adatok? Ha az adatforrásaiból történő adatgyűjtés és az adatok elemzése között késedelem lép fel, elveszíthetjük a valós idejű elemzésben rejlő lehetőségeket. Ha a késedelmek még hosszabbak, előfordulhat, hogy jelentéseket készítünk, mielőtt az összes adat rendelkezésre állna, és így helytelen képet festünk a jelentett (hiányzó adatokkal) és a ténylegesen igaz (késedelmes adatokkal) adatok között.
Az adatok egyedisége. Egyes adatok eleve egyediek, mint például a termék UUID száma vagy az ügyfelek személyazonossága. Az adatminőségben gyakori probléma a rekordduplikáció, amikor ugyanaz az információ többször kerül beillesztésre. Ez a probléma általában az adatbevitel során merül fel, különösen, ha az kézzel történik.
Az adatok érvényessége vagy ésszerűsége. Az érvényes adatok azok, amelyek összhangban vannak az üzleti vagy technikai korlátozásokkal. Például az Ön ügyfele valószínűleg nem 140 éves, így itt valószínűleg érvényességi probléma merül fel. Az érvényesség azonban nem csak a szemantikai megkötésekre (például az életkorra) vonatkozik. Magában foglalja az adatok eloszlását és aggregált mérőszámait is. Az átlag, a medián, a módusz, a standard eltérések, a kiugró értékek és más statisztikai jellemzők vizsgálata lehetővé teszi az adatok érvényességének megállapítását.

Ki a felelős az adatminőségért?

Az adatminőség mindenki ügye, mert a jó adatminőség lehetővé teszi, hogy mindenki bízzon a folyamatban és a legjobb munkáját végezze. A műveletek típusától függően azonban különböző személyek lehetnek felelősek a jó minőségű adatok érvényesítéséért.

Vállalkozásokban és szervezeteken átívelő telepítésekben általában egy adatkezelési csoport felel az adatminőség érvényesítéséért. A csapat egy adatmenedzserből áll, aki felügyeli a teljes adatminőségbiztosítási műveletet, valamint a technikai konfliktusokat megoldó szakemberekből és az adatgondnokokból. Ez utóbbiak felelősek az adatminőségi kérdések és problémamegoldások kommunikációjáért a vállalaton belüli silókon keresztül.

A kisebb szervezetekben, a startupokban és az otthoni vállalkozásokban a felelősség gyakran az “adatember” (adattudós, üzleti elemző vagy adatmérnök) vagy az IT-osztályról valakinek a vállára hárul.

Hogyan érik el ezek a csapatok és egyének a kiváló minőségű adatokat? Végigjárják az adatminőség-menedzsment ciklusát, és javítják azt.

Hogyan javítsuk az adatminőséget

Az adatminőség javításakor a legjobb gyakorlatok folyamatát követjük:

Kezdjük az adatirányítási keretrendszer felállításával. Az adatkezelési keretrendszer meghatározza, hogy milyen szabványokat fog követni, és milyen üzleti követelményeket és szabályokat kell alkalmazni a kiváló minőségű adatok eléréséhez. Ez magában foglalja a jogszabályi megfelelést is, azaz azt, hogy az adatminőségi gyakorlatai hogyan felelnek meg az Európai Unió általános adatvédelmi rendeletének (GDPR) és/vagy a kaliforniai fogyasztói adatvédelmi törvény (CCPA) előírásainak.
Állítson fel KPI-ket vagy célokat az adatminőségre vonatkozóan. Határozza meg a javításra szoruló adatminőségi dimenziókat, és határozza meg azokat KPI-ként. Az “adatpontosság” javulásának általános módja annak felmérésére, hogy mennyit javult az “adatpontosság”, az a pontossági problémák szempontjából ellenőrzött adateszközök (táblák, adatbázisok, ETL-pipeline-ok stb.) számának mérése. Győződjön meg róla, hogy az adatminőségi jelentésekhez naplózási rendszert is létrehozott.
Profilozza az adatokat, és állítson össze egy listát a problémákról. Az adatprofilozás az adatok elemzésére utal, amely jelentést készít az adatok eloszlásáról, gyakoriságáról, központi tendenciáiról és eltéréseiről. Ez azután felhasználható az adatok szerkezeti szintjének megértéséhez. Használja ezt és más elemzéseket a javításra szoruló problémák listájának összeállításához.
Javítsa ki a problémákat. Ez ilyen egyszerű – javítsa ki őket. Ezt általában az adatgyakorlók (gyakorlati adatmenedzserek, adatmérnökök és adattudósok) végzik az adatok tisztításával (írtunk egy hosszú útmutatót az adattisztítás legjobb gyakorlatairól – nézze meg itt). Ügyeljen arra, hogy minden javítást naplózzon, hogy jelentést készíthessen az összes megállapításról.
Iteráljon vagy akadályozza meg a problémák ismétlődését. Az adatminőségi problémák javítása ciklikus. Miután végzett, újra ellenőriznie kell az adatplatformokat, hogy megbizonyosodjon arról, hogy minden megfelel-e a szabványoknak és az adatkezelési keretrendszerben meghatározottaknak. Ha nem így van, akkor újra meg kell tisztítania az adatokat. A fejlett megközelítések megakadályozzák az adatminőségi problémák ismétlődését, amelyet a következő részben bővebben is kifejtünk.

Hogyan biztosíthatja az adatminőséget hosszú távon

Függetlenül attól, hogy korábban már végigment az adatminőség érvényesítésének folyamatán, és megtisztította az adatait, több olyan probléma is van, amely mindig figyelmet igényel:

Entrópia. Nem számít, milyen jól tisztította meg korábban az erőforrásait, az adatok élnek és folyamatosan frissülnek, így valószínűleg új hibák jelennek meg.
A nagy adatok természete. A nagy adatmennyiséget a 3 V-vel lehet a legjobban jellemezni: volumen, sebesség és változatosság. A volumen arra utal, hogy az adatok mennyisége napról napra növekszik. A sebesség arra vonatkozik, hogy az adattermelés hogyan gyorsul fel. A változatosság pedig arra utal, hogy az adatok sokféle formában jelennek meg: míg a múltban a legtöbb adat relációs volt (adatbázis táblák, Excel rekordok stb.), manapság az adatok nagy része strukturálatlan (szöveges fájlok, weboldalak linkfolyamai, videofelvételek stb.). Azok a vállalatok, amelyek adatokat használnak a döntéshozatalban vagy termékeikben, a big data és annak különböző előnyei és problémái felé hajlanak. A nagy adatokban rejlő lehetőségek kiaknázása azt is jelenti, hogy az adatgyűjtéshez szükséges infrastruktúránkat úgy kell méretezni, hogy az ne okozzon problémákat (például sérült és hiányzó adatokat), valamint minőségbiztosítási folyamatunkat a strukturálatlan adatok követelményeihez kell igazítani.
Szabályozások. Az olyan rendeletek, mint a GDPR és a CCPA csak néhány a jogi előírások közül, amelyeket be kell tartanunk. Új szabályozások kerülnek bevezetésre és a meglévőket frissítik, ami folyamatos felügyeletet és változtatásokat követel meg az általunk végzett adatminőségbiztosítási munkában.

Hogyan tarthatják tehát a vállalatok az adataikat ellenőrzés alatt mindezen adatminőséget befolyásoló tényezők mellett?

A válasz a legjobb gyakorlatokon alapuló minőségi szoftverek segítségével adható. A jó szoftver többféle módon segít az adatok kezelésében, hogy biztosítsuk azok minőségét:

Megakadályozza a jogsértéseket. A jó szoftver megakadályozza az adatminőségi problémák kialakulását. Például olyan (elsődleges kulcsú) megkötéseket állíthat be a relációs táblához, amelyek megakadályozzák a duplikált rekordok beillesztését.
Figyelemmel kíséri az adatvezetést. A jó szoftver figyelemmel kíséri adatplatformjait, és értesíti Önt, ha sérült adatra gyanakszik, vagy riaszt, ha ez valóban megtörténik (pl. egy adatgyűjtési csővezeték meghibásodik).
Automatizálja a kritikus ETL-folyamatokat. Az adattisztítás a kedvenc nyelvén (SQL, Python stb.) végrehajtott, ismétlődő parancsok sorozatára egyszerűsödik. A jó szoftver lehetővé teszi ezen ETL-folyamatok automatizálását, hogy mindig garantálja az adatok kiváló minőségét.
… és így tovább.

Platform az adatminőség kezelésére

A jó szoftver segíthet az adatvagyon általános adatminőségének kezelésében.

A Keboola egy példa az ilyen szoftverekre. Egységes DataOps-platformként a Keboola segítségével:

Az adatcsatornát magán a platformon belül állíthatja be. A teljes ETL-folyamat (adatforrások kinyerése, a nyers adatok tisztítással történő átalakítása és az adatok betöltése az Ön által választott adatbázisba) mindössze néhány kattintással megvalósítható.
A transzformációkon belül beállíthatja az adattisztítási folyamatot, hogy garantálja az adatkezelési keretrendszer adatminőségi szabványait.
A transzformációt automatikusan futtathatja, és biztos lehet benne, hogy mindig megbízható adatokat fog szolgáltatni.
Figyelje a végponttól végpontig tartó adatvezetéket a megbízhatóság érdekében.

De a Keboola egy lépéssel tovább megy:

Teljesen megfelel a globális szabályozási követelményeknek (GDPR, CCPA és még sok más).
Az iparág legjobb biztonsági szintjét nyújtja.
Elősíti az együttműködést az összes adatkezelő fél között. A hozzáférési problémák a múlté a Keboola granuláris és intuitív jogosultság-szabályozásával.
Zökkenőmentesen skálázódik. Nagy adatokat szeretne? Nem probléma a Keboolával. Az infrastruktúra gondoskodik magáról, így nem fog növekedési fájdalmaktól szenvedni, ha úgy dönt, hogy több forrást vagy különböző adatvagyont von be.

Kész kipróbálni? Nézze meg mindazt, amit a Keboola kínál ebben az (örökké) ingyenes csomagban. Igen, örökre.

Iratkozzon fel hírlevelünkre