Az adatok hitelessége: a Big Data új kulcsa

Yves Bernaert, az Accenture vezető ügyvezető igazgatója a Web Summit 2018-on tartott beszédében kijelentette, hogy az adatok hitelességének keresése egyre fontosabbá válik a Big Data értelmezéséhez. Röviden, az adattudomány az adatmennyiségről az adatminőség felé fog fordulni.

Az igaz, hogy az adatigazságosság, bár mindig is jelen volt az adattudományban, háttérbe szorult a másik három nagy V-vel szemben: Volume (mennyiség), Velocity (sebesség) és Variety (változatosság). Adatok hitelessége

Volumen

Az adatelemzéshez hatalmas mennyiségű adatra van szükségünk. Szerencsére ma már nemcsak emberi szakemberek szolgáltatnak adatokat, hanem gépek, hálózatok, összekapcsolt eszközök leolvasásai és így tovább. Elmondható, hogy a legtöbb esetben elegendő adat vesz körül minket. Amire most szükségünk van, az az, hogy kiválogassuk, mi az, ami hasznos lehet.

Velocity

A Big Data területén a sebesség azt a sebességet és rendszerességet jelenti, amellyel az adatok a különböző forrásokból beáramlanak. Fontos, hogy az adatáramlás tömeges és folyamatos legyen, és az adatokhoz valós időben vagy néhány másodperces késéssel lehet hozzájutni. Ezek a valós idejű adatok segíthetnek a kutatóknak pontosabb döntéseket hozni, és teljesebb képet nyújtanak.

Változatosság

Hogy az adatok reprezentatívak legyenek, különböző forrásokból és sokféleképpen kell származniuk. Jelenleg sokféle strukturált és strukturálatlan adat létezik különböző formátumokban: Táblázatok, adatbázisok, érzékelők leolvasásai, szövegek, fényképek, hangfelvételek, videók, multimédiás fájlok stb. Ennek a hatalmas heterogén adathalmaznak a megszervezése, tárolása és elemzése nagy kihívássá vált az adattudósok számára.

Mi a helyzet az adatok hitelességével?

A legáltalánosabb megfogalmazásban az adatok hitelessége egy adathalmaz pontosságának vagy valóságtartalmának a foka. A big data kontextusában nemcsak az adatok minősége fontos, hanem az is, hogy mennyire megbízható az adatok forrása, típusa és feldolgozása.

A pontosabb és megbízhatóbb adatok szükségességét mindig is deklarálták, de gyakran figyelmen kívül hagyták a nagyobb és olcsóbb adathalmazok kedvéért.

Tény, hogy a korábbi adattárház/üzleti intelligencia (DW/BI) architektúra hajlamos volt indokolatlanul sok időt és energiát fordítani az adatok előkészítésére, hogy magas szintű pontosságot próbáljon elérni. Most, a strukturálatlan adatok beépítésével, amelyek definíciójuknál fogva bizonytalanok és pontatlanok, valamint a megnövekedett változatosság és sebesség miatt a vállalkozások nem tudnak elegendő erőforrást elkülöníteni az adatok megfelelő tisztítására.

Az adatelemzést ennek következtében mind a strukturált, mind a strukturálatlan, bizonytalan és pontatlan adatokon el kell végezni. A bizonytalanság és a pontatlanság mértéke eseti alapon változik, ezért célszerű lehet az egyes adatkészletekhez adathitelességi pontszámot és rangsort rendelni.

Az adatok valódiságának forrásai

Az adatok valódiságából a Big Data két másik nagy V-je született: a validitás és az volatilitás:

adatok érvényessége volatilitás

Validity

Az adatok pontosságának és valóságtartalmának gondolatából kiindulva, de némileg más szemszögből vizsgálva őket, az adatok érvényessége azt jelenti, hogy az adatok a rendeltetésszerű használat szempontjából helyesek és pontosak, mivel az érvényes adatok kulcsfontosságúak a helyes döntések meghozatalához.

Volatilitás

Az adatok volatilitása viszont az adatok változásának sebességére és élettartamára utal. Annak megállapításához, hogy az adatok még mindig relevánsak-e, meg kell értenünk, hogy egy adott adattípus mennyi ideig érvényes. Az olyan adatok, mint a közösségi média, ahol a vélemények gyorsan változnak, rendkívül volatilisek. A kevésbé változékony adatok, mint például az időjárási trendek, könnyebben megjósolhatóak és nyomon követhetőek. Mégis, sajnos néha az ingadozás nem a mi kezünkben van.

Miért fontos

A nagy adatok rendkívül összetettek, és még mindig nem derült ki, hogyan lehet kihasználni a bennük rejlő lehetőségeket. Sokan úgy gondolják, hogy a gépi tanulásban minél több adatunk van, annál jobb, de a valóságban még mindig szükségünk van statisztikai módszerekre az adatok minőségének és gyakorlati alkalmazásának biztosításához. Lehetetlen a nyers nagy adatokat validálás vagy magyarázat nélkül felhasználni. Ugyanakkor a big data nem rendelkezik erős statisztikai alapokkal. Ezért a kutatók és az elemzők megpróbálják megérteni az adatkezelési platformokat, hogy úttörő módszereket alkalmazzanak az adatok nagy pontosságú integrálására, aggregálására és értelmezésére. E módszerek közé tartozik az elsődleges adatokban használt adatok indexelése és tisztítása, hogy több kontextust adjanak és fenntartsák a meglátások hitelességét.

Ez esetben csak a megbízható adatok adhatnak hozzáadott értéket az elemzéshez és a gépi tanulási algoritmusokhoz, és a hitelességükre helyezett hangsúly az adathalmazok mennyiségének és változatosságának növekedésével csak növekedni fog.