Datan todenperäisyys: uusi avain Big Dataan

, Author

Puheessaan Web Summit 2018 -tapahtumassa Accenturen vanhempi toimitusjohtaja Yves Bernaert julisti, että datan todenperäisyyden tavoittelusta tulee yhä tärkeämpää Big Datan hyödyntämisessä. Lyhyesti sanottuna Data Science on kääntymässä datan määrästä datan laatuun.

On totta, että datan todenperäisyys, vaikka se on aina ollut läsnä Data Sciencessa, jäi muiden kolmen suuren V:n varjoon: Volume (määrä), Velocity (nopeus) ja Variety (monipuolisuus). Datan todenperäisyys

Volume

Data-analyysiin tarvitaan valtavia datamääriä. Onneksi nykyään dataa eivät tuota ainoastaan inhimilliset asiantuntijat vaan myös koneet, verkot, kytkettyjen laitteiden lukemat ja niin edelleen. Voidaan sanoa, että useimmissa tapauksissa meillä on riittävästi dataa ympärillämme. Nyt on vain valittava, mistä voisi olla hyötyä.

Nopeus

Big Datan alalla nopeus tarkoittaa sitä nopeutta ja säännöllisyyttä, jolla dataa virtaa eri lähteistä. Tärkeää on, että tietovirta on massiivista ja jatkuvaa, ja tieto voidaan saada reaaliajassa tai vain muutaman sekunnin viiveellä. Tämän reaaliaikaisen datan avulla tutkijat voivat tehdä tarkempia päätöksiä ja saada täydellisemmän kuvan.

Vaihtelevuus

Jotta data olisi edustavaa, sen tulisi olla peräisin useista eri lähteistä ja monentyyppistä. Tällä hetkellä on olemassa monenlaista strukturoitua ja strukturoimatonta dataa erilaisissa muodoissa: Taulukkolaskentaohjelmat, tietokannat, anturilukemat, tekstit, valokuvat, äänitteet, videot, multimediatiedostot jne. Tämän valtavan heterogeenisen datan organisoinnista, tallentamisesta ja analysoinnista on tullut suuri haaste datatieteilijöille.

Mitä on datan todenperäisyys?

Yleisimmillään datan todenperäisyys on tietojoukon tarkkuuden tai totuudenmukaisuuden aste. Big datan yhteydessä ei ole tärkeää vain datan laatu, vaan myös se, kuinka luotettava on datan lähde, tyyppi ja käsittely.

Tarkemman ja luotettavamman datan tarve on aina julistettu, mutta se on usein jätetty huomiotta suurempien ja halvempien tietokokonaisuuksien vuoksi.

On totta, että aiemmalla tietovarasto-/liiketoimintatietoarkkitehtuurilla (DW/BI, data warehouse/business intelligence) oli taipumus uhrata kohtuuttoman suuria määriä tietoaineiston esikäsittelyyn, kun yritettiin pyrkiä saavuttamaan korkeat tarkkuustasot. Nyt, kun mukaan on otettu jäsentymätöntä dataa, joka on määritelmällisesti epävarmaa ja epätarkkaa, ja kun sen monimuotoisuus ja nopeus ovat lisääntyneet, yritykset eivät voi varata riittävästi resursseja datan asianmukaiseen puhdistamiseen.

Tämän seurauksena data-analyysi on suoritettava sekä strukturoidulle että strukturoimattomalle tiedolle, joka on epävarmaa ja epätarkkaa. Epävarmuuden ja epätarkkuuden taso vaihtelee tapauskohtaisesti, joten voi olla järkevää antaa tietyille tietokokonaisuuksille datan luotettavuuspisteet ja -luokitus.

Datan todenperäisyyden lähteet

datan todenperäisyyden lähteet

Datan todenperäisyys on synnyttänyt kaksi muuta Big Datan suurta V:tä: validiteetti ja volatiliteetti:

datan validiteetin volatiliteetti

Validiteetti

Datan validiteetti lähtee datan tarkkuuden ja totuudenmukaisuuden ajatuksesta, mutta tarkastelee niitä hieman eri näkökulmasta, ja datan validiteetti tarkoittaa sitä, että data on oikeaa ja täsmällistä aiottuun käyttötarkoitukseen nähden, sillä validit datat ovat avainasemassa oikeiden päätösten teossa.

Volatiliteetti

Datan volatiliteetti puolestaan viittaa datan muutosnopeuteen ja elinikään. Määrittääksemme, onko data edelleen relevanttia, meidän on ymmärrettävä, kuinka kauan tietyntyyppinen data on voimassa. Tällainen data, kuten sosiaalinen media, jossa tunteet muuttuvat nopeasti, on erittäin epävakaata. Vähemmän epävakaita tietoja, kuten säätrendejä, on helpompi ennustaa ja seurata. Valitettavasti kuitenkin joskus volatiliteetti ei ole hallinnassamme.

Miksi se on tärkeää

Big data on äärimmäisen monimutkaista, ja on vielä selvittämättä, miten sen potentiaali saadaan käyttöön. Monet ajattelevat, että koneoppimisessa on sitä parempi, mitä enemmän dataa meillä on, mutta todellisuudessa tarvitsemme edelleen tilastollisia menetelmiä varmistaaksemme datan laadun ja käytännön soveltamisen. On mahdotonta käyttää raakaa big dataa validoimatta tai selittämättä sitä. Samaan aikaan big datalla ei ole vahvaa pohjaa tilastojen kanssa. Siksi tutkijat ja analyytikot pyrkivät ymmärtämään tiedonhallinta-alustoja, jotta he voisivat olla edelläkävijöitä menetelmissä, jotka integroivat, yhdistävät ja tulkitsevat dataa suurella tarkkuudella. Joihinkin näistä menetelmistä kuuluu primaaridatassa käytettävien tietojen indeksointi ja puhdistus, jotta saadaan lisää kontekstia ja säilytetään oivallusten todenperäisyys.

Tässä tapauksessa vain luotettava data voi tuoda lisäarvoa analyyseille ja koneoppimisalgoritmeille, ja sen todenperäisyyden korostaminen vain lisääntyy, kun tietokokonaisuudet kasvavat volyymiltaan ja moninaisuudeltaan.

Kuvan luotto: Besjunior/

Vastaa

Sähköpostiosoitettasi ei julkaista.