Všichni jsme slyšeli válečné příběhy, které se zrodily kvůli špatným datům:
- Důležité zásilky jsou odeslány nesprávnému zákazníkovi.
- Dvojité platby dodavatelům kvůli poškozeným fakturačním záznamům.
- Prodejní příležitosti jsou zmeškány kvůli neúplné evidenci výrobků.
Tyto příběhy nejen dělají z vás a vaší společnosti hlupáky, ale způsobují také velké ekonomické škody. A čím více se váš podnik spoléhá na data, tím větší je potenciál škod.
Podíváme se na to, co je to kvalita dat a jak lze celý proces řízení kvality dat zlepšit.
Co je to kvalita dat?
Definice kvality dat je neuchopitelný úkol. I když intuitivně cítíme, že se týká dat vysokých standardů, přesnou definici je těžké určit. Různé instituce, akademici a odborníci z oboru se snaží specifikovat vlastnosti integrity dat ve svých definicích kvality dat.
Například Fleckenstein a Fellows (2018) označují kvalitní data za data, která „jsou vhodná pro zamýšlené použití v provozu, rozhodování a plánování“. Podobně Národní institut pro standardy a technologie definuje kvalitu dat jako: Tento pojem označuje jako „užitečnost, přesnost a správnost dat pro jejich použití“.
Pokud tedy nejsme studenti, kteří se snaží složit zkoušku z procesů správy dat, proč se o tyto definice zajímáme? Z výše uvedených definic je zřejmé, že obě jsou orientovány na pragmatické aspekty kvality dat. Mít kvalitní data nám umožňuje plánovat, rozhodovat a používat data v různých aplikacích.
Ale proč na tom záleží? Kvalita dat má obrovské důsledky pro hospodářský výsledek podniku. Jasné pochopení (definice) toho, co představuje kvalitu dat, nám umožňuje ji měřit a napravovat.
Ponořme se hlouběji do toho, proč je kvalita dat tak důležitá.
Proč je kvalita dat důležitá?
Válečné příběhy zmíněné v úvodu hovoří o důležitosti dat. Kvalita dat je však důležitá z mnoha dalších důvodů:
- Kvalita dat ovlivňuje hospodářský výsledek. Nekvalitní nebo poškozená data ovlivní provoz firmy z finančního hlediska. Nekvalitní data stojí více, než by se na první pohled mohlo zdát – od zvýšených nákladů při chybách (vrácení prodaného zboží, dvojí fakturace atd.) až po ztrátu finančních příležitostí (vyjednání nižších nákladů na dodávky, promeškání prodeje kvůli neúplným údajům nebo nedostatku důvěry zákazníků atd.
- Kvalita dat ovlivňuje důvěru v data. Když se objeví problémy s kvalitou dat, ztrácíte důvěru. Zákazníci vám nemusí důvěřovat, protože jste se dopustili chyb, zatímco vedoucí pracovníci podniku nemusí považovat data za spolehlivá pro rozhodování. Ať už je to jakkoli, nízká kvalita dat má dlouhodobě škodlivé účinky na pověst dat a lidí, kteří se o ně starají.
- Kvalitní data jsou nezbytná pro datové produkty. Podnikáme v době, kdy stále více produktů závisí na datech. Ať už se jedná o aplikace, které využívají data zákazníků k poskytování služeb (aplikace pro finanční investice, sportovní aplikace atd.), nebo produkty strojového učení, které na datech zakládají celý svůj výkon, mít kvalitní data pro svůj produkt je stejné jako mít kvalitní palivo pro raketovou loď. Pokud nebude palivo na špičkové úrovni, raketa nevzlétne. Nebo jak říkají inženýři strojového učení: „Garbage in, garbage out“ (odpadky dovnitř, odpadky ven). Se špatnými daty to prostě nepůjde. Zajištění toho, aby data byla co nejkvalitnější, je nezbytným předpokladem pro vysoce výkonnou produktovou řadu.
Jaké jsou běžné problémy s kvalitou dat?
Problémů s kvalitou dat je tolik, kolik je datových expertů s válečnými historkami.
Poptejte se kteréhokoli datového inženýra nebo architekta a rádi se podělí o to, jak návrh databáze nebo implementace analytiky vedly k obrovskému obchodnímu debaklu.
Abychom pochopili opakující se problémy týkající se kvality dat, musíme tyto problémy seskupit kolem společných témat, která jsou známá jako dimenze kvality dat.
Existuje více dimenzí kvality dat, na kterých záleží:
- Přístupnost nebo dostupnost dat. Přístup k datům je nezbytný, pokud je chceme analyzovat a vyvozovat závěry, které vedou k ziskovým obchodním poznatkům. Problémy týkající se dostupnosti dat se mohou vyskytnout v kterékoli fázi ETL pipeline. Může dojít k přerušení sběru dat, což vynechá import některých datových sad do naší databáze, nebo můžeme narazit na problém s oprávněním ke sdílení, který brání analytikům v přístupu k datům potřebným pro jejich analýzu. To také brání spolupráci mezi různými analytiky, protože nemají přístup k datům potřebným pro společnou práci.
- Přesnost nebo správnost dat. Přesnost se týká toho, jak dobře data odrážejí skutečný svět, který se snaží popsat. Tuto vlastnost kvality dat je obtížné specifikovat v normách kvality dat, protože problémy s přesností nabývají mnoha podob, od změn adres, které nejsou aktualizovány v rámci záznamů o zákaznících, až po překlepy a chybné vložení. Přesnost dat se obvykle zajišťuje použitím obchodních pravidel v rámci procesu čištění dat, který kontroluje správnost dat.
- Úplnost nebo komplexnost dat. Chybějící hodnoty dat vždy představují problém v rámci datových operací. Zajištění úplnosti záznamů je jednou z charakteristik kvalitních dat. Během procesu čištění dat jsou datová aktiva s chybějícími hodnotami buď odstraněna, nebo jsou imputována nejlepšími odhady jako náhrady.
- Konzistence, koherence nebo jasnost dat. Pokud dva záznamy o stejné jednotce obsahují protichůdné informace, jsou nejen nekonzistentní – ale také tlumí schopnost přijímat rozhodnutí založená na datech. A to ani nemluvíme o problémech s dodržováním předpisů, do kterých se můžete dostat, pokud vaše finanční výkazy vykazují nekonzistentní data…
- Relevance, relevantnost nebo užitečnost dat. Můžete mít nashromážděna všechna data světa, ale jsou vám zcela k ničemu, pokud nejsou relevantní pro vaši analýzu a vaše podnikání. Shromažďování relevantních nebo užitečných dat (a vyřazování zbytku) je součástí zajištění kvality dat.
- Včasnost nebo latence dat. Jak rychle jsou pro nás data dostupná? Pokud existuje prodleva mezi sběrem dat z jejich zdrojů a jejich analýzou, můžeme přijít o potenciál analýzy v reálném čase. Pokud jsou prodlevy ještě delší, můžeme vytvářet reporty dříve, než jsou k dispozici všechna data, a vytvářet tak nesprávný obraz mezi tím, co je vykazováno (s chybějícími daty), a tím, co je ve skutečnosti pravda (se zpožděnými daty).
- Jedinečnost dat. Některá data jsou jedinečná z podstaty věci, například číslo UUID vašeho produktu nebo identita vašich zákazníků. Častým problémem v kvalitě dat je duplicita záznamů, kdy je stejná informace vložena vícekrát. Tento problém obvykle vzniká při zadávání dat, zejména pokud se provádí ručně.
- Platnost nebo přiměřenost dat. Platné údaje jsou takové, které jsou v souladu s obchodními nebo technickými omezeními. Například vašemu zákazníkovi pravděpodobně není 140 let, takže je pravděpodobné, že zde existuje problém s validitou. Platnost se však netýká pouze sémantických omezení (například věku). Zahrnuje také distribuci dat a jejich agregované metriky. Pohled na průměr, medián, modus, směrodatné odchylky, odlehlé hodnoty a další statistické charakteristiky vám umožní rozeznat platnost vašich dat.
Kdo je zodpovědný za kvalitu dat?“
Kvalita dat je záležitostí všech, protože dobrá kvalita dat umožňuje všem důvěřovat procesu a odvádět co nejlepší práci. V závislosti na typu provozovaných operací však mohou být za zajištění kvalitní dat zodpovědní různí lidé.
V podnicích a při nasazení napříč organizacemi je obvykle za zajištění kvality dat zodpovědný tým pro správu dat. Tento tým se skládá z manažera dat, který dohlíží na celou operaci zajištění kvality dat, a dále z odborníků z praxe, kteří řeší technické konflikty, a správců dat. Ti jsou zodpovědní za komunikaci o otázkách datové kvality a řešení problémů napříč jednotlivými silami v rámci podniku.
V menších organizacích, startupech a domácích podnicích tato zodpovědnost často padá na bedra „datového člověka“ (datového vědce, obchodního analytika nebo datového inženýra) nebo někoho z oddělení IT.
Jak tyto týmy a jednotlivci dosahují vysoké kvality dat? Procházejí cyklem řízení kvality dat a zlepšují ji.
Jak zlepšit kvalitu dat
Při zlepšování kvality dat existuje postup osvědčených postupů:
- Začněte nastavením rámce řízení dat. Rámec správy dat určuje, které standardy budete dodržovat a jaké obchodní požadavky a pravidla je třeba uplatnit, abyste dosáhli vysoké kvality dat. Patří sem také soulad s předpisy, tj. jak vaše postupy v oblasti kvality dat naplňují obecné nařízení Evropské unie o ochraně osobních údajů (GDPR) a/nebo předpisy kalifornského zákona o ochraně soukromí spotřebitelů (CCPA).
- Nastavte klíčové ukazatele výkonnosti nebo cíle pro kvalitu dat. Určete rozměry kvality dat, které je třeba napravit, a specifikujte je jako KPI. Běžným způsobem, jak posoudit, nakolik se zlepšila „přesnost dat“, je změřit počet datových aktiv (tabulek, databází, potrubí ETL atd.), u kterých jste zkontrolovali problémy s přesností. Ujistěte se, že jste také nastavili systém protokolování pro vykazování kvality dat.
- Profilujte data a vytvořte seznam problémů. Profilováním dat se rozumí analýza dat, jejímž výsledkem je zpráva o rozložení dat, četnostech, centrálních tendencích a odchylkách. Toho lze následně využít při pochopení strukturální úrovně dat. Pomocí této a dalších analýz sestavte seznam problémů, které je třeba odstranit.
- Odstraňte problémy. Je to tak jednoduché – opravte je. To obvykle provádějí datoví odborníci (praktičtí datoví manažeři, datoví inženýři a datoví vědci) čištěním dat (sepsali jsme dlouhého průvodce osvědčenými postupy pro čištění dat – podívejte se na něj zde). Nezapomeňte každou opravu zaznamenat, abyste mohli vytvořit zprávu o všech zjištěních.
- Iterujte nebo zabraňte opakování problémů. Oprava problémů s kvalitou dat je cyklická. Jakmile skončíte, musíte znovu zkontrolovat datové platformy, abyste ověřili, že je vše v souladu s vašimi standardy a nastaveno v rámci správy dat. Pokud tomu tak není, musíte data znovu vyčistit. Pokročilé přístupy zabraňují opakování problémů s kvalitou dat, které rozvedeme v další části.
Jak dlouhodobě zajistit kvalitu dat
Ať už jste již dříve prošli procesem zajištění kvality dat a vyčistili svá data, existuje několik problémů, které budou vždy vyžadovat vaši pozornost:
- Entropie. Bez ohledu na to, jak dobře jste své zdroje předtím vyčistili, data jsou živá a neustále aktualizovaná, takže se pravděpodobně objeví nové chyby.
- Povaha velkých dat. Velká data nejlépe charakterizují 3 V: objem, rychlost a rozmanitost. Objem označuje, jak se množství dat každým dnem zvyšuje. Rychlost se týká toho, jak se zrychluje produkce dat. A variabilita se týká toho, že data mají mnoho různých podob: zatímco v minulosti byla většina dat relačních (databázové tabulky, záznamy v Excelu atd.), v současnosti je mnoho dat nestrukturovaných (textové soubory, proudy odkazů na webové stránky, videozáznamy atd.). Společnosti, které využívají data při svém rozhodování nebo ve svých produktech, se přiklánějí k velkým datům a jejich různým výhodám a problémům. Využití potenciálu velkých dat znamená, že čelíme také výzvám, jak škálovat infrastrukturu pro sběr dat, aniž bychom způsobili problémy (například poškozená a chybějící data), a také jak přizpůsobit proces zajištění kvality požadavkům nestrukturovaných dat.
- Předpisy. Předpisy jako GDPR a CCPA jsou jen některé z právních předpisů, které musíme dodržovat. Zavádějí se nová nařízení a stávající se aktualizují, což vyžaduje neustálý dohled a změny v práci na zajištění kvality dat, kterou provádíme.
Jak tedy firmy udržují svá data pod kontrolou při všech těchto faktorech ovlivňujících kvalitu dat?
Odpovědí je kvalitní software, který je založen na osvědčených postupech. Dobrý software nám pomáhá spravovat data několika způsoby, které zajišťují jejich kvalitu:
- Zabraňuje porušování předpisů. Dobrý software předchází vzniku problémů s kvalitou dat. Můžete například nastavit omezení (primárního klíče) pro relační tabulku, která zabrání vkládání duplicitních záznamů.
- Monitoruje tok dat. Dobrý software monitoruje datové platformy a upozorní vás, kdykoli má podezření na poškození dat, nebo spustí alarm, když k němu skutečně dojde (např. selže datová sběrná pipeline).
- Automatizuje kritické procesy ETL. Čištění dat se omezuje na sadu opakujících se příkazů prováděných ve vašem oblíbeném jazyce (SQL, Python atd.). Dobrý software vám umožní tyto procesy ETL automatizovat, abyste měli vždy záruku, že vaše data budou kvalitní.
- … a další.
Platforma pro správu kvality dat
Dobrý software vám pomůže spravovat celkovou kvalitu datových zdrojů.
Keboola je příkladem takového softwaru. Jako jednotnou platformu DataOps můžete Keboolu použít k:
- Nastavení datového potrubí v rámci samotné platformy. Celý proces ETL (extrakce datových zdrojů, transformace surových dat jejich čištěním a načtení dat do vámi zvolené databáze) lze provést na několik kliknutí.
- Nastavte si proces čištění dat v rámci transformací, abyste zaručili standardy kvality dat vašeho rámce správy dat.
- Nastavte si automatické spouštění transformací a mějte jistotu, že vám vždy poskytnou spolehlivá data.
- Monitorujte spolehlivost koncového datového potrubí.
Ale Keboola jde ještě o krok dál:
- Je plně v souladu s globálními regulačními požadavky (GDPR, CCPA a mnoho dalších).
- Nabízí nejlepší úroveň zabezpečení v oboru.
- Umožňuje spolupráci všech vašich datových stran. Problémy s přístupem jsou díky granulárnímu a intuitivnímu řízení oprávnění společnosti Keboola minulostí.
- Stupnice se plynule mění. Chcete velká data? S Keboolou to není problém. Infrastruktura se o sebe postará sama, takže nebudete trpět růstovými bolestmi, pokud se rozhodnete zahrnout více zdrojů nebo různých datových zdrojů.
Jste připraveni ji vyzkoušet? Podívejte se, co všechno Keboola nabízí v tomto (navždy) bezplatném plánu. Ano, navždy.
.