Înscrieți-vă la newsletterul nostru

, Author

Am auzit cu toții poveștile de război născute din date greșite:

  1. Pachete importante sunt trimise la clientul greșit.
  2. Plăți duble sunt făcute furnizorilor din cauza înregistrărilor de facturare corupte.
  3. Oportunitățile de vânzare sunt ratate din cauza înregistrărilor incomplete ale produselor.

Aceste povești nu vă fac doar pe dumneavoastră și compania dumneavoastră să păreți proști, ci provoacă și mari prejudicii economice. Și cu cât întreprinderea dvs. se bazează mai mult pe date, cu atât mai mare este potențialul de prejudicii.

În cele ce urmează, aruncăm o privire la ce este calitatea datelor și cum poate fi îmbunătățit întregul proces de management al calității datelor.

Ce este calitatea datelor?

Definirea calității datelor este o sarcină evazivă. Chiar dacă avem un sentiment intuitiv că se referă la date de standarde înalte, definiția exactă este greu de stabilit. Diverse instituții, cadre universitare și experți din industrie au încercat să precizeze caracteristicile integrității datelor în definițiile lor privind calitatea datelor.

De exemplu, Fleckenstein și Fellows (2018) se referă la datele de înaltă calitate ca fiind date care „sunt potrivite pentru utilizările lor preconizate în operațiuni, luarea deciziilor și planificare”. În aceeași ordine de idei, Institutul Național de Standarde și Tehnologie definește calitatea datelor ca fiind „utilitatea, acuratețea și corectitudinea datelor pentru aplicarea lor”.

Atunci, cu excepția cazului în care suntem un student care încearcă să treacă un examen în procesele de gestionare a datelor, de ce ne interesează aceste definiții? Este clar din definițiile de mai sus că ambele sunt orientate spre aspectele pragmatice ale calității datelor. A avea date de înaltă calitate ne permite să planificăm, să luăm decizii și să folosim datele în diverse aplicații.

Dar de ce contează acest lucru? Calitatea datelor are ramificații uriașe asupra rezultatului final al afacerii. Având o înțelegere clară (definiție) a ceea ce constituie calitatea datelor ne permite să o măsurăm și să o corectăm.

Să ne scufundăm mai adânc în motivul pentru care calitatea datelor este atât de importantă.

De ce este importantă calitatea datelor?

Poveștile de război menționate în introducere spun multe despre importanța datelor. Dar calitatea datelor este importantă pentru o multitudine de alte motive:

  1. Calitatea datelor afectează rezultatul final. Datele de calitate scăzută sau corupte vă vor afecta operațiunile de afaceri din punct de vedere financiar. De la creșterea cheltuielilor atunci când se fac greșeli (returnări de bunuri vândute, facturare dublă etc.) până la pierderea de oportunități financiare (negocierea unor costuri de aprovizionare mai mici, ratarea unor vânzări din cauza datelor incomplete sau a lipsei de încredere a clienților etc.), datele de calitate scăzută costă mai mult decât ar putea părea la prima vedere.
  2. Calitatea datelor afectează încrederea în date. Atunci când sunt descoperite probleme legate de calitatea datelor, se pierde încrederea. Clienții ar putea să nu aibă încredere în dumneavoastră pentru că ați făcut greșeli, în timp ce liderii de afaceri ar putea să nu considere datele fiabile pentru luarea deciziilor. Oricare ar fi cazul, calitatea scăzută a datelor are efecte dăunătoare pe termen lung asupra reputației datelor și a persoanelor care se ocupă de ele.
  3. Datele de înaltă calitate sunt necesare pentru produsele de date. Conducem afaceri într-o epocă în care din ce în ce mai multe produse depind de date. Fie că este vorba de aplicații care utilizează datele clienților pentru a furniza servicii (aplicații de investiții financiare, aplicații sportive etc.), fie că este vorba de produse de învățare automată care își bazează întreaga performanță pe date, a avea date de înaltă calitate pentru produsul tău este același lucru cu a avea combustibil de înaltă calitate pentru racheta ta. Dacă combustibilul nu este de un standard superior, racheta nu va zbura. Sau, așa cum spun inginerii de învățare automată: „Gunoiul intră, gunoiul iese”. Datele proaste pur și simplu nu vor fi suficiente. Asigurarea faptului că datele sunt cât se poate de bune este o condiție prealabilă pentru o linie de produse de înaltă performanță.

Care sunt problemele comune legate de calitatea datelor?

Există la fel de multe probleme legate de calitatea datelor precum există experți în date cu povești de război.

Întrebați orice inginer sau arhitect de date și vă va împărtăși cu plăcere cum un proiect de bază de date sau o implementare analitică a dus la o debacle masivă de afaceri.
Pentru a înțelege problemele recurente din jurul calității datelor, trebuie să grupăm aceste probleme în jurul unor teme comune, care sunt cunoscute ca dimensiuni ale calității datelor.

Există mai multe dimensiuni ale calității datelor care contează:

  1. Accesibilitatea sau disponibilitatea datelor. Accesul la date este necesar dacă dorim să le analizăm și să tragem concluzii care să conducă la informații profitabile pentru afaceri. Problemele cu privire la accesibilitatea datelor pot apărea în orice etapă de-a lungul pipeline-ului ETL. Colectarea datelor ar putea fi întreruptă, sărind importul unor seturi de date în baza noastră de date, sau am putea întâmpina o problemă cu permisiunile de partajare, ceea ce îi împiedică pe analiști să acceseze datele necesare pentru analiza lor. Acest lucru îngreunează, de asemenea, colaborarea între diferiți analiști, deoarece aceștia nu au acces la datele necesare pentru a lucra împreună.
  2. Acuratețea sau corectitudinea datelor. Acuratețea se referă la cât de bine reflectă datele lumea reală pe care încearcă să o descrie. Această caracteristică a calității datelor este greu de specificat în standardele de calitate a datelor deoarece problemele de acuratețe îmbracă multe forme, de la schimbarea adreselor care nu sunt actualizate în cadrul înregistrărilor clienților până la greșeli de ortografie și inserții eronate. Acuratețea datelor este de obicei afirmată prin aplicarea unor reguli de afaceri în cadrul procesului de curățare a datelor, care verifică corectitudinea datelor.
  3. Caracterul complet sau exhaustiv al datelor. Valorile de date lipsă reprezintă întotdeauna o problemă în cadrul operațiunilor cu date. Asigurarea faptului că înregistrările sunt complete este una dintre caracteristicile datelor de înaltă calitate. În timpul procesului de curățare a datelor, activele de date cu valori lipsă sunt fie eliminate, fie sunt imputate cu cele mai bune estimări ca înlocuitori.
  4. Consistența, coerența sau claritatea datelor. Atunci când două înregistrări despre aceeași unitate dețin informații contradictorii, acestea nu sunt doar incoerente – ele vă atenuează și capacitatea de a lua decizii bazate pe date. Și să nu ne gândim la problemele de conformitate cu reglementările în care puteți intra dacă rapoartele dvs. financiare prezintă date incoerente…
  5. Relevanța, pertinența sau utilitatea datelor. S-ar putea să fi colectat toate datele din lume, dar acestea sunt complet inutile dacă nu sunt relevante pentru analiza și afacerea dvs. Colectarea datelor relevante sau utile (și înlăturarea restului) face parte din asigurarea calității datelor.
  6. Oportunitatea sau latența datelor. Cât de repede ne sunt disponibile datele? Dacă există o întârziere între colectarea datelor din sursele sale de date și analizarea lor, am putea pierde potențialul analizei în timp real. Dacă întârzierile sunt și mai mari, am putea produce rapoarte înainte ca toate datele să fie disponibile, creând astfel o imagine incorectă între ceea ce se raportează (cu date lipsă) și ceea ce este de fapt adevărat (cu date întârziate).
  7. Unicitatea datelor. Unele date sunt unice prin proiectare, cum ar fi numărul UUID al produsului dumneavoastră sau identitatea clienților dumneavoastră. Problema comună în ceea ce privește calitatea datelor este duplicarea înregistrărilor, prin care aceeași informație este inserată de mai multe ori. Această problemă apare de obicei în timpul introducerii datelor, mai ales dacă se face manual.
  8. Valabilitatea sau rezonabilitatea datelor. Datele valide sunt cele care sunt în concordanță cu constrângerile comerciale sau tehnice. De exemplu, clientul dvs. nu are probabil 140 de ani, deci este probabil să existe o problemă de validitate aici. Dar validitatea nu se referă doar la constrângerile semantice (cum ar fi vârsta). Ea include, de asemenea, distribuția datelor și metricile agregate ale acestora. Examinarea mediei, a medianei, a modului, a abaterilor standard, a valorilor aberante și a altor caracteristici statistice vă permite să discerneți validitatea datelor dumneavoastră.

Cine este responsabil pentru calitatea datelor?

Calitatea datelor este treaba tuturor, deoarece o bună calitate a datelor permite tuturor să aibă încredere în proces și să își facă cea mai bună treabă. Cu toate acestea, în funcție de tipul de operațiuni pe care le desfășurați, diferite persoane ar putea fi responsabile pentru afirmarea unor date de înaltă calitate.

În întreprinderi și în implementări inter-organizaționale, există de obicei o echipă de gestionare a datelor responsabilă de afirmarea calității datelor. Echipa cuprinde un manager de date, care supraveghează întreaga operațiune de asigurare a calității datelor, precum și practicieni care rezolvă conflictele tehnice și administratori de date. Aceștia din urmă sunt responsabili de comunicarea aspectelor legate de calitatea datelor și de rezolvarea problemelor în toate silozurile din cadrul afacerii.

În organizațiile mai mici, startup-urile și companiile de casă, responsabilitatea cade adesea pe umerii „persoanei care se ocupă de date” (cercetător de date, analist de afaceri sau inginer de date) sau a cuiva din departamentul IT.

Cum reușesc aceste echipe și persoane să obțină date de înaltă calitate? Ei parcurg ciclul de gestionare a calității datelor și le îmbunătățesc.

Cum să îmbunătățiți calitatea datelor

Există un proces de bune practici atunci când îmbunătățiți calitatea datelor dumneavoastră:

  1. Începeți prin stabilirea unui cadru de guvernanță a datelor. Cadrul de guvernanță a datelor specifică ce standarde veți urma și ce cerințe și reguli de afaceri trebuie să fie aplicate pentru a obține date de înaltă calitate. Acesta include, de asemenea, conformitatea cu reglementările, adică modul în care practicile dvs. de calitate a datelor îndeplinesc Regulamentul general privind protecția datelor (GDPR) al Uniunii Europene și/sau reglementările California Consumer Privacy Act (CCPA).
  2. Stabiliți KPI-uri sau obiective pentru calitatea datelor. Identificați dimensiunile calității datelor care trebuie reparate și specificați-le ca KPI-uri. O modalitate obișnuită de a evalua cât de mult a fost îmbunătățită „acuratețea datelor” este de a măsura numărul de active de date (tabele, baze de date, conducte ETL etc.) pe care le-ați verificat pentru probleme de acuratețe. Asigurați-vă că ați stabilit, de asemenea, un sistem de jurnalizare pentru raportarea calității datelor.
  3. Faceți un profil al datelor și stabiliți o listă de probleme. Profilarea datelor se referă la analiza datelor care produce un raport privind distribuția datelor, frecvențele, tendințele centrale și abaterile. Acesta poate fi utilizat apoi în înțelegerea nivelului structural al datelor. Utilizați această analiză și alte analize pentru a întocmi o listă de probleme care trebuie rezolvate.
  4. Rezolvați problemele. Este cât se poate de simplu – rezolvați-le. Acest lucru este făcut de obicei de practicienii de date (manageri de date practici, ingineri de date și oameni de știință de date) prin curățarea datelor (am scris un ghid lung despre cele mai bune practici de curățare a datelor – consultați-l aici). Asigurați-vă că înregistrați fiecare remediere, astfel încât să puteți genera un raport cu toate constatările.
  5. Iterați sau împiedicați problemele să se repete. Rezolvarea problemelor legate de calitatea datelor este ciclică. După ce ați terminat, trebuie să reverificați platformele de date pentru a verifica dacă totul este în conformitate cu standardele dvs. și stabilit în cadrul dvs. de guvernanță a datelor. Dacă nu este așa, trebuie să curățați din nou datele. Abordările avansate previn reapariția problemelor legate de calitatea datelor, pe care le dezvoltăm în secțiunea următoare.

Cum să asigurați calitatea datelor pe termen lung

Chiar dacă ați trecut sau nu prin procesul de afirmare a calității datelor înainte și v-ați curățat datele, există câteva probleme care vă vor solicita întotdeauna atenția:

  1. Entropia. Indiferent cât de bine v-ați curățat resursele înainte, datele sunt vii și sunt actualizate în mod constant, astfel încât este posibil să apară noi erori.
  2. Natura datelor mari. Datele mari sunt cel mai bine caracterizate de cei 3 V: volum, viteză și varietate. Volumul se referă la modul în care cantitatea de date crește în fiecare zi. Viteza se referă la modul în care producția de date este accelerată. Iar variabilitatea se referă la modul în care datele îmbracă mai multe forme diferite: în timp ce în trecut majoritatea datelor erau relaționale (tabele de baze de date, înregistrări în Excel etc.), în prezent o mulțime de date sunt nestructurate (fișiere text, fluxuri de linkuri de site-uri web, înregistrări video etc.). Companiile care utilizează date în procesul de luare a deciziilor sau în produsele lor oscilează către big data și către diferitele sale avantaje și probleme. Exploatarea potențialului big data înseamnă că ne confruntăm, de asemenea, cu provocările legate de extinderea infrastructurii de colectare a datelor fără a provoca probleme (cum ar fi date corupte și lipsă de date), precum și de adaptarea procesului de asigurare a calității la cerințele datelor nestructurate.
  3. Reglementări. Reglementări precum GDPR și CCPA sunt doar câteva dintre conformitățile legale pe care trebuie să le respectăm. Sunt introduse noi reglementări și cele existente sunt actualizate, ceea ce necesită o supraveghere constantă și modificări ale activității de asigurare a calității datelor pe care o întreprindem.

Atunci, cum își mențin companiile datele sub control cu toți acești factori care influențează calitatea datelor?

Răspunsul este prin intermediul unui software de calitate care se bazează pe cele mai bune practici. Un software bun ne ajută să gestionăm datele în mai multe moduri pentru a asigura calitatea acestora:

  1. Previne încălcările. Un software bun previne apariția problemelor legate de calitatea datelor. De exemplu, ați putea stabili constrângeri (cheie primară) pentru tabelul relațional care împiedică inserarea înregistrărilor duplicate.
  2. Monitorizează conducta de date. Un software bun monitorizează platformele dvs. de date și vă notifică ori de câte ori suspectează date corupte sau sună alarmele atunci când acest lucru se întâmplă efectiv (de exemplu, o conductă de colectare a datelor eșuează).
  3. Automatizează procesele ETL critice. Curățarea datelor se reduce la un set de comenzi repetitive executate în limbajul dvs. preferat (SQL, Python etc.). Un software bun vă permite să automatizați aceste procese ETL pentru a garanta întotdeauna că datele dvs. sunt de înaltă calitate.
  4. … și multe altele.

O platformă pentru gestionarea calității datelor

Un software bun vă poate ajuta să gestionați calitatea generală a activelor dvs. de date.

Keboola este un exemplu de astfel de software. Ca platformă unificată de DataOps, puteți utiliza Keboola pentru:

  1. Stabilește-ți conducta de date în cadrul platformei în sine. Întregul proces ETL (extragerea surselor de date, transformarea datelor brute prin curățare și încărcarea datelor în baza de date aleasă de dvs.) poate fi realizat în doar câteva clicuri.
  2. Setați procesul de curățare a datelor în cadrul transformărilor pentru a garanta standardele de calitate a datelor din cadrul dvs. de guvernanță a datelor.
  3. Orchestrați-vă transformarea pentru a se executa automat și fiți siguri că vă va oferi întotdeauna date fiabile.
  4. Monitorizați conducta de date de la un capăt la altul pentru fiabilitate.

Dar Keboola face un pas mai departe:

  1. Este pe deplin conform cu cerințele globale de reglementare (GDPR, CCPA și multe altele).
  2. Oferă cele mai bune niveluri de securitate din industrie.
  3. Permite colaborarea între toate părțile dvs. de date. Problemele de acces sunt de domeniul trecutului cu controlul granular și intuitiv al permisiunilor de la Keboola.
  4. Scală fără probleme. Vă doriți date mari? Nu este o problemă cu Keboola. Infrastructura are grijă de ea însăși, așa că nu veți suferi dureri de creștere dacă alegeți să includeți mai multe surse sau diferite active de date.

Sunteți gata să încercați? Verificați tot ceea ce are de oferit Keboola în acest plan gratuit (pentru totdeauna). Da, pentru totdeauna.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.