Czym jest jakość danych, dlaczego ma znaczenie i jak można ją poprawić?

Wszyscy słyszeliśmy historie wojenne zrodzone z niewłaściwych danych:

Ważne przesyłki są wysyłane do niewłaściwego klienta.
Podwójne płatności są dokonywane na rzecz dostawców z powodu uszkodzonych zapisów faktur.
Szanse sprzedaży zostają zaprzepaszczone z powodu niekompletnych rejestrów produktów.

Te historie nie tylko sprawiają, że Ty i Twoja firma wychodzicie na głupców, ale także powodują ogromne szkody ekonomiczne. A im bardziej Twoje przedsiębiorstwo polega na danych, tym większy jest potencjał szkód.

Przyjrzymy się tutaj, czym jest jakość danych i jak można usprawnić cały proces zarządzania jakością danych.

Co to jest jakość danych?

Definiowanie jakości danych jest zadaniem nieuchwytnym. Nawet jeśli intuicyjnie czujemy, że odnosi się ona do danych o wysokich standardach, dokładna definicja jest trudna do ustalenia. Różne instytucje, naukowcy i eksperci branżowi próbowali określić cechy integralności danych w swoich definicjach jakości danych.

Na przykład Fleckenstein i Fellows (2018) określają dane wysokiej jakości jako dane, które „nadają się do ich zamierzonych zastosowań w operacjach, podejmowaniu decyzji i planowaniu”. W podobnym duchu, National Institute of Standards and Technology definiuje jakość danych jako: „użyteczność, dokładność i poprawność danych dla ich zastosowania”.

Więc, o ile nie jesteśmy studentami próbującymi zdać egzamin z procesów zarządzania danymi, dlaczego przejmujemy się tymi definicjami? Z powyższych definicji jasno wynika, że obie są zorientowane na pragmatyczne aspekty jakości danych. Posiadanie danych wysokiej jakości pozwala nam planować, podejmować decyzje i wykorzystywać dane w różnych zastosowaniach.

Ale dlaczego to ma znaczenie? Jakość danych ma ogromne konsekwencje dla wyniku finansowego przedsiębiorstwa. Posiadanie jasnego zrozumienia (definicji) tego, co stanowi jakość danych, pozwala nam ją zmierzyć i naprawić.

Zanurzmy się głębiej w tym, dlaczego jakość danych jest tak ważna.

Dlaczego jakość danych jest ważna?

Historie wojenne wspomniane we wstępie wiele mówią o znaczeniu danych. Ale jakość danych jest ważna z wielu innych powodów:

Jakość danych wpływa na wynik końcowy. Niska jakość lub uszkodzone dane będą miały wpływ na działalność firmy z finansowego punktu widzenia. Od zwiększonych wydatków związanych z popełnianiem błędów (zwroty sprzedanych towarów, podwójne fakturowanie itp.) po utratę możliwości finansowych (wynegocjowanie niższych kosztów dostaw, rezygnacja ze sprzedaży z powodu niekompletnych danych lub braku zaufania klientów itp.), dane niskiej jakości kosztują więcej niż mogłoby się wydawać.
Jakość danych wpływa na zaufanie do danych. Kiedy problemy z jakością danych zostają odkryte, tracisz zaufanie. Klienci mogą Ci nie ufać, ponieważ popełniłeś błędy, natomiast liderzy biznesowi mogą nie uznać danych za wiarygodne przy podejmowaniu decyzji. Niezależnie od przypadku, niska jakość danych ma długotrwały szkodliwy wpływ na reputację danych i ludzi, którzy się nimi zajmują.
Wysokiej jakości dane są niezbędne dla produktów danych. Prowadzimy firmy w czasach, w których coraz więcej produktów zależy od danych. Niezależnie od tego, czy chodzi o aplikacje wykorzystujące dane klientów do świadczenia usług (aplikacje do inwestycji finansowych, aplikacje sportowe itp.), czy o produkty uczenia maszynowego, które opierają całą swoją wydajność na danych, posiadanie wysokiej jakości danych dla swojego produktu jest tym samym, co posiadanie wysokiej jakości paliwa dla swojego statku rakietowego. Jeśli paliwo nie jest najwyższej jakości, rakieta nie poleci. Lub jak mówią inżynierowie uczenia maszynowego: „Garbage in, garbage out”. Złe dane po prostu tego nie zniosą. Upewnienie się, że dane są tak dobre, jak to tylko możliwe, jest warunkiem wstępnym dla wysokowydajnej linii produktów.

Jakie są powszechne problemy z jakością danych?

Istnieje tyle problemów z jakością danych, ilu jest ekspertów od danych z historiami wojennymi.

Zapytaj jakiegokolwiek inżyniera danych lub architekta, a chętnie podzielą się tym, jak projekt bazy danych lub wdrożenie analityki doprowadziło do ogromnej porażki biznesowej.
Aby zrozumieć powtarzające się problemy związane z jakością danych, musimy pogrupować je wokół wspólnych tematów, które są znane jako wymiary jakości danych.

Istnieje wiele wymiarów jakości danych, które mają znaczenie:

Dostępność danych lub dostępność danych. Dostęp do danych jest niezbędny, jeśli chcemy je analizować i wyciągać wnioski, które prowadzą do zyskownych spostrzeżeń biznesowych. Problemy z dostępnością danych mogą pojawić się na każdym etapie procesu ETL. Może się zdarzyć, że nasz system zbierania danych zostanie uszkodzony, co spowoduje pominięcie importu niektórych zbiorów danych do naszej bazy, lub napotkamy problem z uprawnieniami do udostępniania danych, co uniemożliwi analitykom dostęp do danych potrzebnych do ich analizy. Utrudnia to również współpracę między różnymi analitykami, ponieważ nie mają oni dostępu do danych, które są potrzebne do wspólnej pracy.
Dokładność lub poprawność danych. Dokładność odnosi się do tego, jak dobrze dane odzwierciedlają rzeczywisty świat, który próbują opisać. Ta cecha jakości danych jest trudna do określenia w standardach jakości danych, ponieważ problemy z dokładnością przybierają różne formy, od zmiany adresów, które nie są aktualizowane w rekordach klientów, po błędną pisownię i błędne wstawienia. Dokładność danych jest zazwyczaj zapewniana poprzez zastosowanie reguł biznesowych w ramach procesu czyszczenia danych, który sprawdza dane pod kątem poprawności.
Kompletność lub wszechstronność danych. Brakujące wartości danych zawsze stanowią problem w operacjach na danych. Zapewnienie, że rekordy są kompletne, jest jedną z cech danych wysokiej jakości. Podczas procesu czyszczenia danych, zasoby danych z brakującymi wartościami są albo usuwane, albo imputowane przy użyciu najlepszych szacunków jako zamienników.
Konsekwencja, spójność lub przejrzystość danych. Kiedy dwa rekordy dotyczące tej samej jednostki zawierają sprzeczne informacje, są one nie tylko niespójne, ale również ograniczają zdolność do podejmowania decyzji opartych na danych. I nie myślmy nawet o problemach ze zgodnością z przepisami, w które możesz się wpakować, jeśli Twoje raporty finansowe zawierają niespójne dane…
Istotność danych, stosowność lub użyteczność. Możesz zebrać wszystkie dane na świecie, ale są one całkowicie bezużyteczne, jeśli nie są istotne dla Twojej analizy i Twojego biznesu. Zbieranie istotnych lub użytecznych danych (i odrzucanie reszty) jest częścią zapewniania jakości danych.
Aktualność lub opóźnienie danych. Jak szybko dane są dla nas dostępne? Jeśli istnieje opóźnienie pomiędzy zbieraniem danych ze źródeł danych a ich analizą, możemy stracić potencjał analityki w czasie rzeczywistym. Jeśli opóźnienia są jeszcze większe, możemy tworzyć raporty zanim wszystkie dane będą dostępne, malując w ten sposób błędny obraz pomiędzy tym, co jest raportowane (z brakującymi danymi), a tym, co jest w rzeczywistości (z opóźnionymi danymi).
Unikalność danych. Niektóre dane są unikalne z założenia, takie jak numer UUID Twojego produktu lub tożsamość Twoich klientów. Częstym problemem w jakości danych jest duplikacja rekordów, dzięki której ta sama informacja jest wstawiana wielokrotnie. Ten problem zwykle pojawia się podczas wprowadzania danych, zwłaszcza jeśli jest to wykonywane ręcznie.
Ważność lub racjonalność danych. Poprawne dane to takie, które są zgodne z ograniczeniami biznesowymi lub technicznymi. Na przykład, Twój klient prawdopodobnie nie ma 140 lat, więc jest prawdopodobne, że istnieje problem z poprawnością danych. Ale ważność nie odnosi się tylko do ograniczeń semantycznych (takich jak wiek). Obejmuje ona również dystrybucję danych i ich zagregowane metryki. Przyjrzenie się średniej, medianie, wzorcowi, odchyleniom standardowym, wartościom odstającym i innym charakterystykom statystycznym pozwala określić ważność danych.

Kto jest odpowiedzialny za jakość danych?

Jakość danych jest sprawą każdego z nas, ponieważ dobra jakość danych pozwala każdemu zaufać procesowi i wykonać swoją najlepszą pracę. Jednak w zależności od rodzaju prowadzonych operacji za zapewnienie wysokiej jakości danych mogą być odpowiedzialne różne osoby.

W przedsiębiorstwach i wdrożeniach międzyorganizacyjnych zwykle istnieje zespół zarządzania danymi odpowiedzialny za zapewnienie jakości danych. Zespół ten składa się z menedżera danych, który nadzoruje całą operację zapewnienia jakości danych, a także z praktyków, którzy rozwiązują konflikty techniczne oraz ze strażników danych. Ci ostatni są odpowiedzialni za komunikowanie kwestii związanych z jakością danych i rozwiązywanie problemów w obrębie silosów biznesowych.

W mniejszych organizacjach, startupach i firmach domowych, odpowiedzialność często spada na barki „osoby zajmującej się danymi” (data scientist, analityk biznesowy lub inżynier danych) lub kogoś z działu IT.

Jak te zespoły i osoby osiągają wysoką jakość danych? Przechodzą przez cykl zarządzania jakością danych i poprawiają ją.

Jak poprawić jakość danych

Istnieje proces najlepszych praktyk podczas poprawiania jakości danych:

Zacznij od ustanowienia ram ładu danych. Ramy zarządzania danymi określają, jakich standardów będziesz przestrzegać oraz jakie wymagania biznesowe i reguły należy zastosować, aby uzyskać wysokiej jakości dane. Obejmuje to również zgodność z przepisami, tj. w jaki sposób Twoje praktyki w zakresie jakości danych spełniają unijne przepisy General Data Protection Regulation (GDPR) i/lub przepisy California Consumer Privacy Act (CCPA).
Ustal KPI lub cele dla jakości danych. Zidentyfikuj wymiary jakości danych, które wymagają naprawy i określ je jako KPI. Popularnym sposobem oceny stopnia poprawy „dokładności danych” jest pomiar liczby zasobów danych (tabel, baz danych, potoków ETL, itp.), które zostały sprawdzone pod kątem problemów z dokładnością. Upewnij się, że skonfigurowałeś również system logowania do raportowania jakości danych.
Profiluj dane i ustal listę problemów. Profilowanie danych odnosi się do analizy danych, która tworzy raport na temat rozkładu danych, częstotliwości, tendencji centralnych i odchyleń. Może to być wykorzystane w zrozumieniu strukturalnego poziomu danych. Użyj tej i innych analiz, aby skompilować listę problemów, które wymagają naprawy.
Napraw te problemy. To jest tak proste, jak to – napraw je. Zazwyczaj jest to wykonywane przez praktyków danych (praktycznych menedżerów danych, inżynierów danych i naukowców danych) poprzez czyszczenie danych (napisaliśmy długi przewodnik na temat najlepszych praktyk czyszczenia danych – sprawdź tutaj). Pamiętaj, aby rejestrować każdą poprawkę, tak abyś mógł wygenerować raport ze wszystkimi ustaleniami.
Iteruj lub zapobiegaj powtarzaniu się problemów. Naprawianie problemów z jakością danych jest cykliczne. Po zakończeniu pracy należy ponownie sprawdzić platformy danych, aby zweryfikować, czy wszystko jest zgodne ze standardami i założeniami ładu danych. Jeśli tak nie jest, należy ponownie wyczyścić dane. Zaawansowane podejścia zapobiegają ponownemu pojawianiu się problemów z jakością danych, o czym szerzej piszemy w następnej sekcji.

Jak zapewnić jakość danych w dłuższej perspektywie

Niezależnie od tego, czy wcześniej przeszedłeś przez proces zapewniania jakości danych i wyczyściłeś swoje dane, czy nie, istnieje kilka kwestii, które zawsze będą wymagały Twojej uwagi:

Entropia. Bez względu na to, jak dobrze wyczyściłeś swoje zasoby wcześniej, dane żyją i są stale aktualizowane, więc nowe błędy prawdopodobnie się pojawią.
Natura big data. Big data jest najlepiej scharakteryzowana przez 3 Vs: volume, velocity i variety. Objętość odnosi się do tego, jak ilość danych rośnie każdego dnia. Velocity odnosi się do tego, jak produkcja danych jest przyspieszona. A różnorodność odnosi się do tego, że dane przybierają różne formy: podczas gdy w przeszłości większość danych była relacyjna (tabele baz danych, rekordy w Excelu itp.), obecnie wiele danych jest nieustrukturyzowanych (pliki tekstowe, strumienie linków na stronach internetowych, nagrania wideo itp.) Firmy, które wykorzystują dane w procesie podejmowania decyzji lub w swoich produktach, zwracają się w kierunku big data i jego różnych zalet i problemów. Wykorzystanie potencjału big data oznacza, że stajemy również przed wyzwaniami związanymi ze skalowaniem naszej infrastruktury do gromadzenia danych bez powodowania problemów (takich jak uszkodzone i brakujące dane), a także z dostosowaniem naszego procesu zapewniania jakości do wymagań danych nieustrukturyzowanych.
Regulacje. Przepisy takie jak GDPR i CCPA to tylko niektóre z wymogów prawnych, których musimy przestrzegać. Wprowadzane są nowe regulacje, a istniejące są aktualizowane, co wymaga ciągłego nadzoru i zmian w pracach związanych z zapewnieniem jakości danych, które podejmujemy.

Jak więc firmy utrzymują swoje dane w ryzach przy wszystkich tych czynnikach wpływających na jakość danych?

Odpowiedź brzmi: poprzez wysokiej jakości oprogramowanie, które jest oparte na najlepszych praktykach. Dobre oprogramowanie pomaga nam zarządzać danymi na kilka sposobów, aby zapewnić ich jakość:

Zapobiega naruszeniom. Dobre oprogramowanie zapobiega powstawaniu problemów z jakością danych. Na przykład można skonfigurować ograniczenia (klucz podstawowy) dla tabeli relacyjnej, które zapobiegają wstawianiu duplikatów rekordów.
Monitoruje rurociąg danych. Dobre oprogramowanie monitoruje twoje platformy danych i powiadamia cię, kiedy tylko podejrzewa uszkodzenie danych lub uruchamia alarm, kiedy to się faktycznie dzieje (np. rurociąg zbierania danych zawodzi).
Zautomatyzuj krytyczne procesy ETL. Czyszczenie danych sprowadza się do zestawu powtarzalnych poleceń wykonywanych w Twoim ulubionym języku (SQL, Python, itp.). Dobre oprogramowanie pozwala zautomatyzować te procesy ETL, aby zawsze gwarantować wysoką jakość danych.
… i nie tylko.

Platforma do zarządzania jakością danych

Dobre oprogramowanie może pomóc Ci w zarządzaniu ogólną jakością danych w Twoich zasobach danych.

Keboola jest przykładem takiego oprogramowania. Jako zunifikowana platforma DataOps, możesz wykorzystać Keboolę do:

Ustawienia swojego potoku danych w ramach samej platformy. Cały proces ETL (pobieranie danych ze źródeł, przekształcanie surowych danych poprzez ich czyszczenie oraz ładowanie danych do wybranej bazy danych) można zrealizować za pomocą zaledwie kilku kliknięć.
Ustaw proces czyszczenia danych w ramach transformacji, aby zagwarantować spełnienie standardów jakości danych określonych w ramach ładu danych.
Zapewnij automatyczne uruchamianie transformacji i bądź pewien, że zawsze będzie ona dostarczać wiarygodne dane.
Monitorowanie rurociągu danych end-to-end pod kątem niezawodności.

Ale Keboola idzie o krok dalej:

Jest w pełni zgodna z globalnymi wymaganiami regulacyjnymi (GDPR, CCPA i wiele innych).
Oferuje najlepsze w branży poziomy bezpieczeństwa.
Pozwala na współpracę między wszystkimi stronami zajmującymi się danymi. Problemy z dostępem należą do przeszłości dzięki granularnej i intuicyjnej kontroli uprawnień w Keboola.
Skaluje się bezproblemowo. Chcesz mieć duże dane? Z Keboolą to nie problem. Infrastruktura dba o siebie, więc nie będziesz cierpieć na bóle wzrostowe, jeśli zdecydujesz się włączyć więcej źródeł lub różnych aktywów danych.

Czy jesteś gotowy, aby spróbować? Sprawdź wszystko, co Keboola ma do zaoferowania na tym (na zawsze) darmowym planie. Tak, na zawsze.

Zapisz się do naszego biuletynu