1.5.1 Harvinaiset tapahtumat
Väkivaltarikollisuutta ja muita huonoja käyttäytymismalleja, kuten terrorismia, käsiteltäessä se, että kyse on suhteellisen harvinaisesta tapahtumasta, on erittäin hyvä asia melkeinpä kaikkien kannalta, paitsi analyytikoiden. Mitä pienempi otoskoko yleensä on, sitä helpompi on tehdä virheitä. Virheitä voi tapahtua monista eri syistä, joista joitakin käsitellään tarkemmin luvussa 5. Mallintamisessa harvinaiset tapahtumat voivat aiheuttaa ongelmia erityisesti silloin, kun niihin liittyy erittäin epätasa-arvoisia otosjakaumia.
Analysoidessamme ryöstöihin liittyviä törkeitä pahoinpitelyjä havaitsimme, että hyvin harvat aseelliset ryöstöt eskaloituvat törkeiksi pahoinpitelyiksi.3 Itse asiassa havaitsimme, että alle 5 prosenttia kaikista aseellisista ryöstöistä eskaloitui törkeiksi pahoinpitelyiksi. Tämäkin on erittäin hyvä asia yleisen turvallisuuden kannalta, vaikka se onkin merkittävä haaste ennustemallien kehittämiselle, jos analyytikko ei ole varovainen.
Tutkittaessa asiaa tarkemmin käy ilmi, että voidaan luoda hyvin yksinkertainen malli, jonka tarkkuus on yli 95 prosenttia. Toisin sanoen tämä yksinkertainen malli voisi ennustaa oikein aseellisen ryöstön kehittymisen törkeäksi pahoinpitelyksi 95 prosentissa tapauksista. Ensi silmäyksellä tämä kuulostaa ilmiömäiseltä. Tällaisen erittäin tarkan mallin avulla näyttäisi olevan helppo asia ottaa ennakoivasti käyttöön ja hävittää väkivaltarikollisuus viikossa. Tutkittaessa mallia tarkemmin huomaamme kuitenkin kriittisen virheen: siinä on vain yksi päätössääntö, ja se on ”ei”. Ennustamalla, että aseellinen ryöstö ei koskaan laajene törkeäksi pahoinpitelyksi, malli olisi 95 prosenttia ajasta oikein, mutta se ei olisi kovin hyödyllinen. Etsimme oikeastaan joitakin ryöstöön liittyviä törkeitä pahoinpitelyjä koskevia päätöksentekosääntöjä, joiden avulla voimme luonnehtia ja mallintaa niitä. Sen jälkeen voimme kehittää ennakoivia strategioita, joiden avulla voimme estää niitä tapahtumasta tulevaisuudessa. Kuten tämä hieman äärimmäinen esimerkki osoittaa, mallin tehokkuuden ja arvon arviointi on paljon muutakin kuin sen yleisen tarkkuuden määrittäminen. On äärimmäisen tärkeää tunnistaa virheiden luonne ja sen jälkeen määrittää, minkä tyyppiset virheet ovat hyväksyttäviä ja minkä tyyppiset eivät.
Toinen esimerkki harvinaisista tapahtumista liittyy merirosvohyökkäyksiin, jotka on yhdistetty useisiin korkean profiilin tapahtumiin, kuten hyökkäykseen Maersk Alabamaa vastaan.4 Lukujen suhteuttamiseksi mainittakoon kuitenkin, että Bahrainissa sijaitseva Yhdysvaltain viides laivasto ilmoitti tämän tapauksen aikaan, että Adeninlahden kautta kulkeviin aluksiin kohdistui yhteensä 122 hyökkäystä.5 Näistä hyökkäyksistä 42 oli merirosvojen näkökulmasta ”onnistuneita”, joten merirosvojen ”onnistumisprosentti” oli 34 prosenttia. Lisätietoa antaa kuitenkin se, että noin 33 000 alusta kulki vuonna 2008 ilman välikohtauksia. Alle 1/2 prosenttia kaikista aluksista joutui hyökkäyksen kohteeksi, joko onnistuneesti tai ei. Jälleen kerran voisimme kehittää mallin, joka sanoisi, että alus kulkee turvallisesti Adeninlahden läpi ja olisi oikeassa yli 99 % ajasta; tällä ei kuitenkaan olisi mitään arvoa alueen meriturvallisuuden parantamiselle.
Yksi tapa arvioida virheiden erityisluonnetta on luoda niin sanottu sekaannus- tai luottamusmatriisi. Siinä eritellään ja kuvataan virheiden erityisluonne ja niiden osuus mallin kokonaistarkkuudesta. Kun on määritetty, missä virheet esiintyvät ja vaikuttavatko ne merkittävästi kokonaisvirheprosentin ja mallin arvoon, voidaan tehdä tietoon perustuva päätös mallin hyväksymisestä. Sekaannusmatriiseja käsitellään tarkemmin luvussa 8, jossa käsitellään harjoitus- ja testinäytteitä.
Sekaannusmatriisi on tärkeä esimerkki hyvästä käytännöstä analyysissä. Voi olla erittäin arvokasta kyseenalaistaa tulokset, työntää niitä hieman analyyttisesti ja katsoa, mitä tapahtuu, tai tarkastella niitä eri analyyttisessä valossa. Sekaannusmatriisin avulla analyytikot voivat taas porautua syvemmälle ja tutkia, mikä vaikuttaa mallin kokonaistarkkuuteen. Sen jälkeen he voivat tehdä tietoon perustuvan päätöksen siitä, hyväksyvätkö he mallin vai jatkavatko he sen työstämistä, kunnes virheet jakautuvat tavalla, joka on järkevä yleisen turvallisuus- tai tiedustelutavoitteen kannalta. Vaikka tämä prosessi saattaa tuntua tässä vaiheessa hieman epäselvältä, se korostaa, miten tärkeää on valita analyytikot, joilla on asiantuntemusta alalta. Henkilöt, jotka tietävät, mistä tiedot ovat peräisin ja mihin niitä käytetään, voivat lopulta erottaa toisistaan virheet, jotka ovat hyväksyttäviä, ja virheet, jotka eivät ole hyväksyttäviä. Joku, joka tietää paljon tilastollisesta analyysistä, voi luoda erittäin tyylikkäitä ja hyvin ennustavia malleja, mutta jos malli ennustaa johdonmukaisesti, että aseellinen ryöstö ei koskaan muutu törkeäksi pahoinpitelyksi, koska analyytikko ei tiennyt, että tällaiset tapahtumat ovat suhteellisen harvinaisia, sillä voi olla vakavia seurauksia. Vaikka tämä saattaa tuntua äärimmäiseltä esimerkiltä, joka olisi täysin ilmeinen melkein kenelle tahansa, paljon hienovaraisempia asioita esiintyy säännöllisesti, ja niillä voi olla samanlaisia haitallisia seurauksia. Tämän ongelman perimmäinen seuraus on se, että julkisen turvallisuusyhteisön työntekijät ovat parhaassa asemassa analysoimaan omia tietojaan. Tämä ei tarkoita sitä, että olisi väärin hakea ulkopuolista analyysiapua, mutta tämän vastuun täydellisellä siirtämisellä, kuten näyttää tapahtuvan yhä useammin, voi olla vakavia seurauksia, koska monet näistä analyysiprosessia läpäisevistä asioista ovat luonteeltaan hienovaraisia. Tämä seikka korostaa myös sitä, että on tärkeää tehdä yhteistyötä operatiivisen henkilöstön kanssa, joka on useimpien analyysituotteiden lopullinen loppukäyttäjä, koko analyysiprosessin ajan. Vaikka heidän tietämyksensä ja ymmärryksensä tietystä ohjelmistosta tai algoritmista saattaa olla jossain määrin rajallista, heidän näkemyksensä ja käsityksensä lopullisista operatiivisista tavoitteista voi merkittävästi parantaa päätöksentekoprosessia, kun on käsiteltävä kustannus/hyöty- ja virheidenhallintakysymyksiä.
Rikosten ja tiedustelutietojen analyysin luonteen vuoksi ei ole epätavallista kohdata harvinaisia tapahtumia ja epätasaisia jakaumia. Valitettavasti monet tiedonlouhinta- ja tilasto-ohjelmistojen oletusasetukset luovat automaattisesti päätöspuita tai sääntöjoukkoja, jotka on esiohjelmoitu jakamaan tapaukset tasaisesti. Tämä voi olla valtava ongelma, kun on kyse harvinaisista tapahtumista tai muuten epätasaisista jakaumista. Toinen tapa ilmaista tämä on, että ohjelma olettaa, että ennakkotodennäköisyydet tai ”priorit” ovat 50:50 tai jokin muu tasaisesti jakautunut suhde. Yleensä tämä voidaan nollata joko automaattisesti tai manuaalisesti. Automaattisissa asetuksissa vaihtoehto on yleensä asettaa ennustetut tai odotetut todennäköisyydet vastaamaan otoksen ennakko- tai havaittuja frekvenssejä. Tällöin ohjelmisto laskee tietyn tapahtuman tai tapahtuman havaitun frekvenssin otosdatassa ja käyttää sitten tätä frekvenssiä luodakseen mallin, joka johtaa samanlaiseen ennustettuun frekvenssiin. Joissakin tilanteissa voi kuitenkin olla edullista asettaa priorit manuaalisesti. Esimerkiksi kun pyritään hallitsemaan riskiä tai vähentämään erityisen vakavan virheen kustannuksia, voi olla tarpeen luoda malli, joka on joko liian avokätinen tai hyvin tiukka, riippuen halutusta lopputuloksesta ja väärinluokitteluvirheiden luonteesta. Jotkin ohjelmistot tarjoavat samantyyppistä virheiden hallintaa antamalla käyttäjälle mahdollisuuden määritellä tiettyjen luokitteluvirheiden ”kustannukset” pyrkien luomaan malleja, jotka maksimoivat tarkkuuden ja varmistavat samalla hyväksyttävän virhejakauman.