Věrohodnost dat: nový klíč k velkým datům

Ve svém projevu na Web Summitu 2018 Yves Bernaert, Senior Managing Director ve společnosti Accenture, prohlásil, že hledání věrohodnosti dat bude stále důležitější pro pochopení velkých dat. Stručně řečeno, Data Science se chystá přejít od kvantity dat ke kvalitě dat.

Je pravda, že pravdivost dat, ačkoli byla v Data Science vždy přítomna, byla zastíněna dalšími třemi velkými „V“: Objem, Rychlost a Rozmanitost. Věrnost dat

Objem

Pro analýzu dat potřebujeme obrovské objemy dat. Naštěstí dnes data neposkytují jen lidští odborníci, ale i stroje, sítě, údaje z připojených zařízení atd. Lze říci, že ve většině případů máme kolem sebe dostatek dat. To, co nyní potřebujeme, je vybrat to, co by mohlo být užitečné.

Velocity

V oblasti velkých dat znamená rychlost a pravidelnost, s jakou data přicházejí z různých zdrojů. Důležité je, že tok dat je masivní a nepřetržitý a data lze získat v reálném čase nebo jen s několikavteřinovým zpožděním. Tato data v reálném čase mohou výzkumníkům pomoci činit přesnější rozhodnutí a poskytnout úplnější obraz.

Různorodost

Aby byla data reprezentativní, měla by pocházet z různých zdrojů a v mnoha typech. V současné době existuje mnoho druhů strukturovaných i nestrukturovaných dat v různých formátech: Jsou to tabulky, databáze, údaje ze senzorů, texty, fotografie, zvukové záznamy, videa, multimediální soubory atd. Organizace tohoto obrovského fondu heterogenních dat, jejich ukládání a analýza se staly pro datové vědce velkou výzvou.

Jak je to s věrohodností dat?

V nejobecnější rovině je věrohodnost dat stupeň přesnosti nebo pravdivosti datového souboru. V kontextu velkých dat není důležitá jen kvalita dat, ale i to, jak důvěryhodný je jejich zdroj, typ a zpracování.

Potřeba přesnějších a spolehlivějších dat byla vždy deklarována, ale často přehlížena ve prospěch větších a levnějších datových sad.

Je pravda, že předchozí architektura datových skladů/business intelligence (DW/BI) měla tendenci vynakládat nepřiměřeně velké množství času a úsilí na přípravu dat ve snaze dosáhnout vysoké úrovně přesnosti. Nyní, se začleněním nestrukturovaných dat, která jsou z definice nejistá a nepřesná, a také se zvýšenou rozmanitostí a rychlostí, nemohou podniky vyčlenit dostatek zdrojů na řádné vyčištění dat.

V důsledku toho je třeba provádět analýzu dat jak strukturovaných, tak nestrukturovaných dat, která jsou nejistá a nepřesná. Úroveň nejistoty a nepřesnosti se liší případ od případu, takže by mohlo být rozumné přiřadit konkrétním datovým souborům skóre a pořadí věrohodnosti dat.

Zdroje věrohodnosti dat

zdroje věrohodnosti dat

Věrohodnost dat dala vzniknout dalším dvěma velkým V velkých dat: validitě a volatilitě:

validita dat volatilita

validita

Vyplývající z myšlenky přesnosti a pravdivosti dat, ale nahlížející na ně z poněkud jiného úhlu, validita dat znamená, že data jsou správná a přesná pro zamýšlené použití, protože validní data jsou klíčem k přijímání správných rozhodnutí.

Volatilita

Volatilita dat se zase týká rychlosti změn a životnosti dat. Abychom mohli určit, zda jsou data stále relevantní, musíme pochopit, jak dlouho je určitý typ dat platný. Taková data, jako jsou sociální média, kde se nálady rychle mění, jsou vysoce volatilní. Méně volatilní data, jako jsou trendy počasí, se snáze předpovídají a sledují. Přesto bohužel někdy nemáme volatilitu pod kontrolou.

Proč je to důležité

Velká data jsou nesmírně složitá a teprve se objevuje, jak využít jejich potenciál. Mnozí si myslí, že ve strojovém učení platí, že čím více dat máme, tím lépe, ale ve skutečnosti stále potřebujeme statistické metody, abychom zajistili kvalitu dat a jejich praktické využití. Není možné používat nezpracovaná velká data bez jejich validace nebo vysvětlení. Zároveň velká data nemají pevný základ ve statistice. Proto se výzkumníci a analytici snaží porozumět platformám pro správu dat, aby se stali průkopníky metod, které integrují, agregují a interpretují data s vysokou přesností. Některé z těchto metod zahrnují indexování a čištění dat, která jsou použita v primárních datech, aby poskytla více souvislostí a zachovala věrohodnost poznatků.

V tomto případě pouze důvěryhodná data mohou přidat hodnotu vašim analýzám a algoritmům strojového učení a důraz na jejich věrohodnost bude s rostoucím objemem a rozmanitostí datových souborů jen růst.