Wir alle kennen die Kriegsgeschichten, die durch falsche Daten entstanden sind:
- Wichtige Pakete werden an den falschen Kunden geschickt.
- Doppelte Zahlungen an Lieferanten werden aufgrund von fehlerhaften Rechnungsunterlagen geleistet.
- Verkaufschancen werden aufgrund unvollständiger Produktunterlagen verpasst.
Diese Geschichten lassen Sie und Ihr Unternehmen nicht nur wie Trottel aussehen, sondern verursachen auch große wirtschaftliche Schäden. Und je mehr sich Ihr Unternehmen auf Daten verlässt, desto größer ist das Schadenspotenzial.
Hier werfen wir einen Blick darauf, was Datenqualität ist und wie der gesamte Datenqualitätsmanagementprozess verbessert werden kann.
Was ist Datenqualität?
Die Definition von Datenqualität ist eine schwierige Aufgabe. Auch wenn wir intuitiv wissen, dass es sich um Daten mit hohen Standards handelt, ist die genaue Definition schwer zu fassen. Verschiedene Institutionen, Akademiker und Branchenexperten haben versucht, die Merkmale der Datenintegrität in ihren Definitionen der Datenqualität zu präzisieren.
Zum Beispiel bezeichnen Fleckenstein und Fellows (2018) qualitativ hochwertige Daten als Daten, die „für ihre beabsichtigte Verwendung in Betrieb, Entscheidungsfindung und Planung geeignet sind“. In ähnlicher Weise definiert das National Institute of Standards and Technology Datenqualität als: „die Nützlichkeit, Genauigkeit und Korrektheit von Daten für ihre Anwendung“.
Warum interessieren uns diese Definitionen, es sei denn, wir sind Studenten, die versuchen, eine Prüfung in Datenmanagementprozessen zu bestehen? Aus den obigen Definitionen geht klar hervor, dass beide auf die pragmatischen Aspekte der Datenqualität ausgerichtet sind. Hochwertige Daten ermöglichen es uns, zu planen, Entscheidungen zu treffen und Daten in verschiedenen Anwendungen zu nutzen.
Aber warum ist das wichtig? Die Datenqualität hat enorme Auswirkungen auf das Unternehmensergebnis. Ein klares Verständnis (Definition) dessen, was Datenqualität ausmacht, ermöglicht es uns, sie zu messen und zu beheben.
Lassen Sie uns tiefer in die Frage eintauchen, warum Datenqualität so wichtig ist.
Warum ist Datenqualität wichtig?
Die in der Einleitung erwähnten Kriegsgeschichten sprechen Bände über die Bedeutung von Daten. Aber die Qualität der Daten ist aus einer Vielzahl anderer Gründe wichtig:
- Die Datenqualität wirkt sich auf das Endergebnis aus. Qualitativ minderwertige oder beschädigte Daten wirken sich aus finanzieller Sicht auf Ihren Geschäftsbetrieb aus. Von erhöhten Kosten bei Fehlern (Rücksendungen verkaufter Waren, doppelte Rechnungsstellung usw.) bis hin zum Verlust finanzieller Möglichkeiten (Aushandeln niedrigerer Lieferkosten, Ausbleiben von Verkäufen aufgrund unvollständiger Daten oder mangelnden Kundenvertrauens usw.) – Daten von schlechter Qualität kosten mehr, als es zunächst den Anschein hat.
- Datenqualität wirkt sich auf das Vertrauen in Daten aus. Wenn Probleme mit der Datenqualität entdeckt werden, verlieren Sie das Vertrauen. Die Kunden vertrauen Ihnen vielleicht nicht, weil Sie Fehler gemacht haben, während die Unternehmensleitung die Daten für die Entscheidungsfindung nicht für zuverlässig hält. In jedem Fall hat eine niedrige Datenqualität langfristig schädliche Auswirkungen auf den Ruf der Daten und der Personen, die sich um sie kümmern.
- Hochwertige Daten sind für Datenprodukte notwendig. Wir führen Unternehmen in einer Zeit, in der immer mehr Produkte von Daten abhängen. Ganz gleich, ob es sich um Anwendungen handelt, die Kundendaten zur Erbringung von Dienstleistungen nutzen (Finanzanlage-Apps, Sport-Apps usw.), oder um Produkte für maschinelles Lernen, die ihre gesamte Leistung auf Daten stützen: Hochwertige Daten für Ihr Produkt sind dasselbe wie hochwertiger Treibstoff für Ihr Raketenschiff. Solange der Treibstoff nicht von höchster Qualität ist, wird die Rakete nicht fliegen. Oder wie die Ingenieure für maschinelles Lernen sagen: „Garbage in, garbage out.“ Schlechte Daten sind einfach nicht gut genug. Die Sicherstellung, dass die Daten so gut wie möglich sind, ist eine Voraussetzung für eine leistungsstarke Produktlinie.
Welche Probleme gibt es mit der Datenqualität?
Es gibt so viele Probleme mit der Datenqualität, wie es Datenexperten mit Kriegsgeschichten gibt.
Fragen Sie einen Dateningenieur oder -architekten, und er wird Ihnen gerne erzählen, wie ein Datenbankdesign oder eine Analyseimplementierung zu einem massiven Geschäftsdebakel geführt hat.
Um die wiederkehrenden Probleme im Zusammenhang mit der Datenqualität zu verstehen, müssen wir diese Probleme um gemeinsame Themen gruppieren, die als Dimensionen der Datenqualität bekannt sind.
Es gibt mehrere Dimensionen der Datenqualität, die von Bedeutung sind:
- Datenzugänglichkeit oder Verfügbarkeit. Der Zugang zu Daten ist notwendig, wenn wir sie analysieren und Schlussfolgerungen ziehen wollen, die zu gewinnbringenden Geschäftserkenntnissen führen. Probleme mit der Datenverfügbarkeit können in jeder Phase der ETL-Pipeline auftreten. Unsere Datenerfassung könnte fehlerhaft sein, so dass der Import einiger Datensätze in unsere Datenbank übersprungen wird, oder wir könnten auf ein Problem mit den Freigabeberechtigungen stoßen, was Analysten daran hindert, auf die für ihre Analyse erforderlichen Daten zuzugreifen. Dies behindert auch die Zusammenarbeit zwischen verschiedenen Analysten, da sie keinen Zugang zu den Daten haben, die sie für ihre Arbeit benötigen.
- Genauigkeit oder Korrektheit der Daten. Die Genauigkeit bezieht sich darauf, wie gut die Daten die reale Welt widerspiegeln, die sie zu beschreiben versuchen. Dieses Merkmal der Datenqualität ist in Datenqualitätsnormen schwer zu spezifizieren, da Genauigkeitsprobleme viele Formen annehmen können, von geänderten Adressen, die in Kundendatensätzen nicht aktualisiert werden, bis hin zu Rechtschreibfehlern und falschen Einfügungen. Die Datengenauigkeit wird in der Regel durch die Anwendung von Geschäftsregeln im Rahmen des Datenbereinigungsprozesses sichergestellt, der die Daten auf ihre Korrektheit überprüft.
- Datenvollständigkeit oder Vollständigkeit. Fehlende Datenwerte stellen bei Datenoperationen immer ein Problem dar. Die Sicherstellung der Vollständigkeit der Datensätze ist eines der Merkmale qualitativ hochwertiger Daten. Während des Datenbereinigungsprozesses werden die Datenbestände mit fehlenden Werten entweder entfernt oder durch die besten Schätzungen ersetzt.
- Datenkonsistenz, Kohärenz oder Klarheit. Wenn zwei Datensätze über dieselbe Einheit widersprüchliche Informationen enthalten, sind sie nicht nur inkonsistent – sie beeinträchtigen auch Ihre Fähigkeit, datengestützte Entscheidungen zu treffen. Ganz zu schweigen von den Problemen, die sich aus der Einhaltung gesetzlicher Vorschriften ergeben können, wenn Ihre Finanzberichte inkonsistente Daten enthalten…
- Relevanz, Relevanz oder Nützlichkeit der Daten. Sie können alle Daten der Welt gesammelt haben, aber sie sind völlig nutzlos, wenn sie für Ihre Analyse und Ihr Unternehmen nicht relevant sind. Das Sammeln relevanter oder nützlicher Daten (und das Verwerfen des Rests) ist Teil der Datenqualitätssicherung.
- Datenaktualität oder Latenz. Wie schnell sind die Daten für uns verfügbar? Wenn zwischen der Erfassung der Daten aus den Datenquellen und ihrer Analyse eine Verzögerung eintritt, können wir das Potenzial der Echtzeitanalyse nicht nutzen. Wenn die Verzögerungen noch größer sind, könnten wir Berichte erstellen, bevor alle Daten verfügbar sind, und so ein falsches Bild zwischen dem, was berichtet wird (mit fehlenden Daten) und dem, was tatsächlich wahr ist (mit verzögerten Daten), zeichnen.
- Einzigartigkeit der Daten. Einige Daten sind von vornherein eindeutig, wie z. B. die UUID-Nummer Ihres Produkts oder die Identität Ihrer Kunden. Ein häufiges Problem bei der Datenqualität ist die Duplizierung von Datensätzen, bei der dieselben Informationen mehrfach eingefügt werden. Dieses Problem tritt in der Regel bei der Dateneingabe auf, insbesondere wenn diese manuell erfolgt.
- Datengültigkeit oder Angemessenheit. Gültige Daten sind solche, die mit den geschäftlichen oder technischen Bedingungen übereinstimmen. Zum Beispiel ist Ihr Kunde wahrscheinlich nicht 140 Jahre alt, also ist es wahrscheinlich, dass es hier ein Validitätsproblem gibt. Die Gültigkeit bezieht sich jedoch nicht nur auf semantische Einschränkungen (wie das Alter). Sie umfasst auch die Verteilung der Daten und ihrer aggregierten Metriken. Anhand von Mittelwert, Median, Modus, Standardabweichungen, Ausreißern und anderen statistischen Merkmalen können Sie die Validität Ihrer Daten erkennen.
Wer ist für die Datenqualität verantwortlich?
Datenqualität geht jeden etwas an, denn eine gute Datenqualität ermöglicht es allen, dem Prozess zu vertrauen und ihre beste Arbeit zu leisten. Je nach Art des Betriebs sind jedoch unterschiedliche Personen für die Sicherstellung einer hohen Datenqualität verantwortlich.
In Unternehmen und organisationsübergreifenden Implementierungen gibt es in der Regel ein Datenmanagement-Team, das für die Sicherstellung der Datenqualität zuständig ist. Das Team besteht aus einem Datenmanager, der die gesamte Datenqualitätssicherung beaufsichtigt, sowie aus Praktikern, die technische Konflikte lösen, und Datenverantwortlichen. Letztere sind für die Kommunikation von Datenqualitätsproblemen und Problemlösungen über die Silos innerhalb des Unternehmens hinweg verantwortlich.
In kleineren Organisationen, Startups und Heimunternehmen liegt die Verantwortung oft auf den Schultern der „Datenperson“ (Datenwissenschaftler, Business Analyst oder Dateningenieur) oder jemandem aus der IT-Abteilung.
Wie erreichen diese Teams und Personen qualitativ hochwertige Daten? Sie durchlaufen den Zyklus des Datenqualitätsmanagements und verbessern es.
Wie man die Datenqualität verbessert
Es gibt einen Prozess von Best Practices, wenn man die Qualität seiner Daten verbessert:
- Beginnen Sie mit der Einrichtung eines Data Governance Frameworks. Der Data-Governance-Rahmen legt fest, welche Standards Sie befolgen werden und welche geschäftlichen Anforderungen und Regeln angewandt werden müssen, um qualitativ hochwertige Daten zu erhalten. Dazu gehört auch die Einhaltung gesetzlicher Vorschriften, d. h. wie Ihre Datenqualitätspraktiken den Vorschriften der General Data Protection Regulation (GDPR) der Europäischen Union und/oder dem California Consumer Privacy Act (CCPA) entsprechen.
- Legen Sie KPIs oder Ziele für die Datenqualität fest. Identifizieren Sie die Datenqualitätsdimensionen, die behoben werden müssen, und legen Sie sie als KPIs fest. Eine gängige Methode, um zu beurteilen, inwieweit die „Datengenauigkeit“ verbessert wurde, ist die Messung der Anzahl der Datenbestände (Tabellen, Datenbanken, ETL-Pipelines usw.), die Sie auf Genauigkeitsprobleme überprüft haben. Stellen Sie sicher, dass Sie auch ein Protokollierungssystem für die Berichterstattung über die Datenqualität einrichten.
- Erstellen Sie ein Profil der Daten und eine Liste der Probleme. Datenprofilierung bezieht sich auf die Analyse von Daten, die einen Bericht über Datenverteilung, Häufigkeiten, zentrale Tendenzen und Abweichungen erstellt. Dies kann dann zum Verständnis der strukturellen Ebene der Daten verwendet werden. Nutzen Sie diese und andere Analysen, um eine Liste von Problemen zu erstellen, die behoben werden müssen.
- Beheben Sie die Probleme. So einfach ist das – beheben Sie sie. Dies wird in der Regel von Datenexperten (praktischen Datenmanagern, Dateningenieuren und Datenwissenschaftlern) durchgeführt, indem sie die Daten bereinigen (wir haben einen langen Leitfaden zu den besten Praktiken für die Datenbereinigung geschrieben – lesen Sie ihn hier). Achten Sie darauf, jede Korrektur zu protokollieren, damit Sie einen Bericht über alle Ergebnisse erstellen können.
- Iterieren Sie oder verhindern Sie, dass sich Probleme wiederholen. Die Behebung von Datenqualitätsproblemen ist zyklisch. Sobald Sie damit fertig sind, müssen Sie Ihre Datenplattformen erneut überprüfen, um sicherzustellen, dass alles Ihren Standards entspricht und in Ihrem Data-Governance-Rahmenwerk verankert ist. Wenn dies nicht der Fall ist, müssen Sie die Daten erneut bereinigen. Fortgeschrittene Ansätze verhindern, dass Datenqualitätsprobleme immer wieder auftreten, worauf wir im nächsten Abschnitt eingehen.
Wie Sie die Datenqualität langfristig sicherstellen
Ob Sie den Prozess der Sicherstellung der Datenqualität bereits durchlaufen und Ihre Daten bereinigt haben oder nicht, es gibt einige Probleme, die immer Ihre Aufmerksamkeit erfordern werden:
- Entropie. Unabhängig davon, wie gut Sie Ihre Ressourcen zuvor bereinigt haben, sind die Daten lebendig und werden ständig aktualisiert, so dass wahrscheinlich neue Fehler auftauchen werden.
- Die Natur von Big Data. Big Data lässt sich am besten durch die 3 Vs charakterisieren: Volume, Velocity und Variety. Volume bezieht sich darauf, dass die Datenmenge täglich zunimmt. Geschwindigkeit bezieht sich darauf, wie die Datenproduktion beschleunigt wird. Und die Variabilität bezieht sich darauf, dass Daten in vielen verschiedenen Formen vorliegen: Während die meisten Daten in der Vergangenheit relational waren (Datenbanktabellen, Excel-Datensätze usw.), sind viele Daten heute unstrukturiert (Textdateien, Website-Link-Streams, Videoaufzeichnungen usw.). Unternehmen, die Daten zur Entscheidungsfindung oder für ihre Produkte verwenden, schwenken auf Big Data und seine verschiedenen Vorteile und Probleme ein. Die Nutzung des Potenzials von Big Data bedeutet, dass wir uns auch den Herausforderungen stellen müssen, unsere Infrastruktur für die Datenerfassung zu skalieren, ohne Probleme zu verursachen (z. B. beschädigte und fehlende Daten), und unsere Qualitätssicherungsprozesse an die Anforderungen unstrukturierter Daten anzupassen.
- Vorschriften. Vorschriften wie GDPR und CCPA sind nur einige der gesetzlichen Bestimmungen, die wir einhalten müssen. Neue Vorschriften werden eingeführt und bestehende aktualisiert, was eine ständige Überwachung und Änderung der von uns durchgeführten Datenqualitätssicherungsarbeiten erfordert.
Wie können Unternehmen also ihre Daten bei all diesen Faktoren, die die Datenqualität beeinflussen, unter Kontrolle halten?
Die Antwort lautet: durch Qualitätssoftware, die auf bewährten Verfahren basiert. Gute Software hilft uns, Daten auf verschiedene Weise zu verwalten, um ihre Qualität zu sichern:
- Sie verhindert Verstöße. Gute Software verhindert, dass Probleme mit der Datenqualität auftreten. So können Sie beispielsweise (Primärschlüssel-)Einschränkungen für Ihre relationale Tabelle einrichten, die verhindern, dass doppelte Datensätze eingefügt werden.
- Überwacht die Datenpipeline. Gute Software überwacht Ihre Datenplattformen und benachrichtigt Sie, wenn sie beschädigte Daten vermutet oder schlägt Alarm, wenn dies tatsächlich geschieht (z. B. wenn eine Datenerfassungspipeline ausfällt).
- Automatisieren Sie kritische ETL-Prozesse. Die Datenbereinigung besteht aus einer Reihe von sich wiederholenden Befehlen, die in Ihrer bevorzugten Sprache (SQL, Python usw.) ausgeführt werden. Mit guter Software können Sie diese ETL-Prozesse automatisieren, um stets eine hohe Datenqualität zu gewährleisten.
- … und mehr.
Eine Plattform zur Verwaltung der Datenqualität
Gute Software kann Ihnen helfen, die Gesamtdatenqualität Ihrer Datenbestände zu verwalten.
Keboola ist ein Beispiel für eine solche Software. Als einheitliche DataOps-Plattform können Sie mit Keboola:
- Ihre Datenpipeline innerhalb der Plattform selbst einrichten. Der gesamte ETL-Prozess (Extrahieren von Datenquellen, Transformieren von Rohdaten durch Bereinigung und Laden der Daten in die Datenbank Ihrer Wahl) kann mit nur wenigen Klicks durchgeführt werden.
- Richten Sie Ihren Datenbereinigungsprozess innerhalb von Transformationen ein, um die Datenqualitätsstandards Ihres Data-Governance-Frameworks zu gewährleisten.
- Richten Sie Ihre Transformation so ein, dass sie automatisch abläuft, und seien Sie sicher, dass sie Ihnen stets zuverlässige Daten liefert.
- Überwachen Sie die End-to-End-Datenpipeline auf Zuverlässigkeit.
Aber Keboola geht noch einen Schritt weiter:
- Es ist vollständig konform mit globalen regulatorischen Anforderungen (GDPR, CCPA und viele mehr).
- Bietet das branchenweit beste Sicherheitsniveau.
- Ermöglicht die Zusammenarbeit zwischen all Ihren Datenparteien. Zugriffsprobleme gehören mit der granularen und intuitiven Berechtigungssteuerung von Keboola der Vergangenheit an.
- Skaliert nahtlos. Sie wollen große Daten? Kein Problem mit Keboola. Die Infrastruktur kümmert sich um sich selbst, so dass Sie keine Wachstumsschmerzen haben, wenn Sie mehr Quellen oder andere Datenbestände einbeziehen möchten.
Sind Sie bereit, es auszuprobieren? Schauen Sie sich alles an, was Keboola mit diesem (für immer) kostenlosen Plan zu bieten hat. Ja, für immer.