Data Veracity: ein neuer Schlüssel zu Big Data

In seiner Rede auf dem Web Summit 2018 erklärte Yves Bernaert, Senior Managing Director bei Accenture, das Streben nach Datenwahrhaftigkeit, das immer wichtiger werden wird, um Big Data sinnvoll zu nutzen. Kurz gesagt, Data Science ist dabei, sich von der Datenquantität zur Datenqualität zu entwickeln.

Es stimmt, dass die Datenwahrhaftigkeit, obwohl sie in Data Science immer präsent war, von den anderen drei großen V’s in den Schatten gestellt wurde: Volume, Velocity und Variety. Data veracity

Volume

Für die Datenanalyse benötigen wir enorme Datenmengen. Glücklicherweise werden Daten heute nicht nur von menschlichen Experten, sondern auch von Maschinen, Netzwerken, Messwerten von angeschlossenen Geräten usw. bereitgestellt. Man kann sagen, dass wir in den meisten Fällen genug Daten um uns herum haben. Was wir jetzt brauchen, ist eine Auswahl derjenigen, die von Nutzen sein könnten.

Geschwindigkeit

Im Bereich der Big Data bedeutet Geschwindigkeit die Geschwindigkeit und Regelmäßigkeit, mit der Daten aus verschiedenen Quellen einfließen. Es ist wichtig, dass der Datenfluss massiv und kontinuierlich ist, und die Daten können in Echtzeit oder mit nur wenigen Sekunden Verzögerung gewonnen werden. Diese Echtzeitdaten können den Forschern helfen, genauere Entscheidungen zu treffen und ein umfassenderes Bild zu vermitteln.

Vielfalt

Damit die Daten repräsentativ sind, sollten sie aus verschiedenen Quellen und in vielen Arten stammen. Gegenwärtig gibt es viele Arten von strukturierten und unstrukturierten Daten in unterschiedlichen Formaten: Tabellenkalkulationen, Datenbanken, Sensormesswerte, Texte, Fotos, Audios, Videos, Multimedia-Dateien usw. Die Organisation dieses riesigen Pools heterogener Daten, ihre Speicherung und Analyse sind zu einer großen Herausforderung für Datenwissenschaftler geworden.

Wie steht es um die Datenwahrheit?

Im Allgemeinen bezeichnet die Datenwahrheit den Grad der Genauigkeit oder Wahrhaftigkeit eines Datensatzes. Im Zusammenhang mit Big Data kommt es nicht nur auf die Qualität der Daten an, sondern auch darauf, wie vertrauenswürdig die Quelle, die Art und die Verarbeitung der Daten sind.

Die Notwendigkeit genauerer und zuverlässigerer Daten wurde schon immer erklärt, aber oft zugunsten größerer und billigerer Datensätze übersehen.

Es stimmt, dass die frühere Data Warehouse/Business Intelligence (DW/BI)-Architektur dazu neigte, unangemessen viel Zeit und Aufwand für die Datenaufbereitung aufzuwenden, um ein hohes Maß an Präzision zu erreichen. Mit der Einbeziehung unstrukturierter Daten, die per definitionem unsicher und ungenau sind, sowie mit der zunehmenden Vielfalt und Geschwindigkeit können Unternehmen nicht genügend Ressourcen für eine angemessene Datenbereinigung bereitstellen.

Infolgedessen muss die Datenanalyse sowohl für strukturierte als auch für unstrukturierte Daten durchgeführt werden, die unsicher und ungenau sind. Der Grad der Ungewissheit und Ungenauigkeit variiert von Fall zu Fall, so dass es sinnvoll sein könnte, für bestimmte Datensätze eine Datenwahrheitsbewertung und eine Rangfolge zu vergeben.

Quellen der Datenwahrheit

Datenwahrheit hat zu zwei weiteren großen V’s von Big Data geführt: Validität und Volatilität:

Datenvalidität Volatilität

Validität

Ausgehend von der Idee der Datengenauigkeit und Wahrhaftigkeit, aber aus einem etwas anderen Blickwinkel betrachtet, bedeutet Datenvalidität, dass die Daten für den beabsichtigten Verwendungszweck korrekt und genau sind, da gültige Daten der Schlüssel zu richtigen Entscheidungen sind.

Volatilität

Die Volatilität von Daten wiederum bezieht sich auf die Änderungsrate und die Lebensdauer der Daten. Um festzustellen, ob die Daten noch relevant sind, müssen wir verstehen, wie lange eine bestimmte Art von Daten gültig ist. Solche Daten wie soziale Medien, in denen sich die Stimmung schnell ändert, sind sehr unbeständig. Weniger volatile Daten wie Wettertrends lassen sich leichter vorhersagen und verfolgen. Doch leider liegt die Volatilität manchmal nicht in unserem Einflussbereich.

Warum das wichtig ist

Große Daten sind äußerst komplex, und es muss erst noch herausgefunden werden, wie man ihr Potenzial ausschöpfen kann. Viele denken, dass beim maschinellen Lernen je mehr Daten wir haben, desto besser sind, aber in Wirklichkeit brauchen wir immer noch statistische Methoden, um die Datenqualität und die praktische Anwendung zu gewährleisten. Es ist unmöglich, rohe Big Data zu verwenden, ohne sie zu validieren oder zu erläutern. Gleichzeitig verfügen Big Data nicht über eine solide Grundlage in der Statistik. Deshalb versuchen Forscher und Analysten, Datenverwaltungsplattformen zu verstehen und Methoden zu entwickeln, die Daten mit hoher Präzision integrieren, aggregieren und interpretieren. Einige dieser Methoden umfassen die Indizierung und Bereinigung der Daten, die in den Primärdaten verwendet werden, um mehr Kontext zu liefern und die Wahrhaftigkeit der Erkenntnisse zu erhalten.

In diesem Fall können nur vertrauenswürdige Daten einen Mehrwert für Ihre Analysen und Algorithmen für maschinelles Lernen bieten, und die Betonung ihrer Wahrhaftigkeit wird mit den immer umfangreicheren und vielfältigeren Datensätzen nur zunehmen.