Data Veracity: a New Key to Big Data

W swoim wystąpieniu na Web Summit 2018, Yves Bernaert, Senior Managing Director w Accenture, zadeklarował dążenie do prawdziwości danych, które będzie coraz ważniejsze dla nadania sensu Big Data. W skrócie, Data Science ma się zwrócić od ilości danych do ich jakości.

To prawda, że prawdziwość danych, choć zawsze obecna w Data Science, została przyćmiona przez inne trzy wielkie V: Volume, Velocity i Variety. Prawdziwość danych

Objętość

Do Analizy Danych potrzebujemy ogromnych ilości danych. Na szczęście dziś dane są dostarczane nie tylko przez ludzkich ekspertów, ale przez maszyny, sieci, odczyty z podłączonych urządzeń i tak dalej. Można powiedzieć, że w większości przypadków, mamy wystarczająco dużo danych wokół nas. To, czego teraz potrzebujemy, to wybrać te, które mogą być użyteczne.

Velocity

W dziedzinie Big Data, prędkość oznacza tempo i regularność, z jaką dane napływają z różnych źródeł. Ważne jest, że przepływ danych jest masowy i ciągły, a dane mogą być uzyskiwane w czasie rzeczywistym lub z zaledwie kilkusekundowym opóźnieniem. Takie dane w czasie rzeczywistym mogą pomóc badaczom podejmować dokładniejsze decyzje i zapewnić pełniejszy obraz sytuacji.

Różnorodność

Aby dane były reprezentatywne, powinny pochodzić z różnych źródeł i w wielu rodzajach. Obecnie istnieje wiele rodzajów ustrukturyzowanych i nieustrukturyzowanych danych w różnych formatach: arkusze kalkulacyjne, bazy danych, odczyty z czujników, teksty, zdjęcia, audycje, filmy, pliki multimedialne itp. Organizacja tej ogromnej puli heterogenicznych danych, ich przechowywanie i analizowanie stały się wielkim wyzwaniem dla naukowców zajmujących się danymi.

Co z wiarygodnością danych?

W najbardziej ogólnych terminach, wiarygodność danych jest stopniem dokładności lub prawdziwości zestawu danych. W kontekście big data ważna jest nie tylko jakość danych, ale również to, na ile wiarygodne jest źródło, rodzaj i przetwarzanie danych.

Potrzeba dokładniejszych i bardziej wiarygodnych danych była zawsze deklarowana, ale często pomijana ze względu na większe i tańsze zbiory danych.

Prawdą jest, że poprzednia architektura hurtowni danych/business intelligence (DW/BI) miała tendencję do poświęcania nieracjonalnie dużej ilości czasu i wysiłku na przygotowanie danych, próbując osiągnąć wysoki poziom precyzji. Obecnie, po wprowadzeniu danych nieustrukturyzowanych, które z definicji są niepewne i nieprecyzyjne, a także po zwiększeniu ich różnorodności i szybkości, firmy nie są w stanie przeznaczyć wystarczającej ilości zasobów na właściwe czyszczenie danych.

W rezultacie, analiza danych ma być wykonywana zarówno na danych ustrukturyzowanych jak i nieustrukturyzowanych, które są niepewne i nieprecyzyjne. Poziom niepewności i nieprecyzyjności różni się w zależności od przypadku, więc rozsądne może być przypisanie wyniku i rankingu wiarygodności danych dla konkretnych zbiorów danych.

Źródła prawdziwości danych

źródła prawdziwości danych

Prawdziwość danych dała początek dwóm innym wielkim „V” Big Data: ważności i zmienności:

data Validity volatility

Validity

Wyrastając z idei dokładności i prawdziwości danych, ale patrząc na nie z nieco innej strony, ważność danych oznacza, że dane są poprawne i dokładne dla zamierzonego zastosowania, ponieważ ważne dane są kluczem do podejmowania właściwych decyzji.

Wolność

Wolność danych, z kolei, odnosi się do tempa zmian i czasu życia danych. Aby określić, czy dane są nadal istotne, musimy zrozumieć, jak długo pewien rodzaj danych jest ważny. Dane takie jak media społecznościowe, gdzie nastroje zmieniają się szybko, są bardzo zmienne. Mniej zmienne dane, takie jak trendy pogodowe, są łatwiejsze do przewidzenia i śledzenia. Niestety, czasami zmienność nie jest pod naszą kontrolą.

Dlaczego jest to ważne

Big data jest niezwykle złożona i wciąż nie odkryto, jak uwolnić jej potencjał. Wiele osób uważa, że w uczeniu maszynowym im więcej danych, tym lepiej, ale w rzeczywistości nadal potrzebujemy metod statystycznych, aby zapewnić jakość danych i praktyczne zastosowanie. Niemożliwe jest wykorzystanie surowych big data bez ich walidacji i wyjaśnienia. Jednocześnie, big data nie ma silnych podstaw w statystyce. Dlatego badacze i analitycy starają się zrozumieć platformy zarządzania danymi, aby stworzyć pionierskie metody, które integrują, agregują i interpretują dane z wysoką precyzją. Niektóre z tych metod obejmują indeksowanie i czyszczenie danych, które są wykorzystywane w danych pierwotnych, aby nadać więcej kontekstu i utrzymać prawdziwość spostrzeżeń.

W tym przypadku tylko godne zaufania dane mogą dodać wartość do analizy i algorytmów uczenia maszynowego, a nacisk na ich prawdziwość będzie tylko wzrastał wraz z rosnącą objętością i różnorodnością zbiorów danych.