Robbery

, Author

1.5.1 Ritkán előforduló események

Az erőszakos bűncselekmények és más rossz viselkedésminták, például a terrorizmus esetében az a tény, hogy viszonylag ritkán fordul elő, szinte mindenki számára nagyon jó, kivéve az elemzőket. Minél kisebb a minta mérete, általában annál könnyebb hibázni. Ezek a hibák számos okból előfordulhatnak, amelyek közül néhányat részletesebben az 5. fejezetben tárgyalunk. A modellezés során a ritkán előforduló események problémákat okozhatnak, különösen akkor, ha durván egyenlőtlen mintaeloszlással járnak együtt.

A rablással kapcsolatos súlyos testi sértések elemzése során azt találtuk, hogy nagyon kevés fegyveres rablás fajul súlyos testi sértéssé.3 Valójában azt találtuk, hogy az összes fegyveres rablás kevesebb mint 5%-a fajult súlyos testi sértéssé. Ez ismét nagyon jó dolog a közbiztonság szempontjából, bár jelentős kihívást jelent a prediktív modellek fejlesztése szempontjából, ha az elemző nem körültekintő.

Azt vizsgálva ezt részletesebben, nyilvánvalóvá válik, hogy egy nagyon egyszerű modell hozható létre, amelynek pontossági aránya 95%-nál nagyobb. Más szóval, ez az egyszerű modell az esetek 95%-ában helyesen meg tudja jósolni egy fegyveres rablás súlyos testi sértéssé történő eszkalálódását. Első hallásra ez fenomenálisan hangzik. Egy ilyen nagy pontosságú modellel egyszerűnek tűnne az erőszakos bűncselekmények proaktív bevetése és egy héten belüli felszámolása. A modellt tovább vizsgálva azonban találunk egy kritikus hibát: csak egy döntési szabály van, és az a “nem”. Ha azt jósolnánk, hogy egy fegyveres rablás soha nem fog súlyos testi sértéssé fajulni, a modell az esetek 95%-ában helyes lenne, de nem lenne túl hasznos. Amit valójában keresünk, az néhány döntési szabály a rablással kapcsolatos súlyos testi sértésekkel kapcsolatban, amelyek lehetővé teszik számunkra, hogy jellemezzük és modellezzük őket. Ezután olyan proaktív stratégiákat dolgozhatunk ki, amelyek lehetővé teszik számunkra, hogy a jövőben megelőzzük az ilyen esetek előfordulását. Ahogy ez a kissé szélsőséges példa is mutatja, egy modell hatékonyságának és értékének értékelése sokkal több, mint annak általános pontosságának meghatározása. Rendkívül fontos a hibák jellegének azonosítása, majd annak meghatározása, hogy a hibák mely típusai elfogadhatóak, és melyek nem.

A ritka események másik példája a kalóztámadásokhoz kapcsolódik, amelyek számos nagy visszhangot kiváltó incidenshez kapcsolódnak, köztük a Maersk Alabama elleni támadáshoz.4 A számok perspektívába helyezése érdekében azonban a konkrét incidens idején az USA bahreini 5. flottája arról számolt be, hogy összesen 122 támadást hajtottak végre az Ádeni-öbölben áthaladó hajók ellen.5 E támadások közül 42 volt “sikeres” a kalózok szempontjából, ami a kalózok számára 34%-os “sikerességi” arányt jelent. További kontextust biztosít, hogy 2008-ban körülbelül 33 000 hajó haladt át az Öbölön incidensek nélkül. Az összes hajó kevesebb mint 1/2 1%-át támadták meg, akár sikeresen, akár nem. Ismét kifejleszthetnénk egy olyan modellt, amely azt mondaná, hogy egy hajó biztonságosan áthalad az Ádeni-öblön, és az esetek több mint 99%-ában helytálló lenne; ennek azonban semmi értéke nem lenne a térség tengeri biztonságának fokozása szempontjából.

A hibák konkrét jellegének értékelésének egyik módja az úgynevezett zavar- vagy bizalmi mátrix létrehozása. Ennek lényege, hogy lebontja és ábrázolja a hibák sajátos jellegét és a modell általános pontosságához való hozzájárulásukat. Miután meghatároztuk, hogy hol fordulnak elő a hibák, és hogy ezek jelentősen befolyásolják-e a teljes hibaarány és a modell értékét, megalapozott döntést lehet hozni a modell elfogadásáról. A konfúziós mátrixokkal részletesebben a 8. fejezetben foglalkozunk, amely a képzési és tesztmintákkal foglalkozik.

A konfúziós mátrix az elemzés jó gyakorlatának fontos példája. Rendkívül értékes lehet megkérdőjelezni az eredményeket, analitikusan egy kicsit eltolni őket, és megnézni, mi történik, vagy más analitikus megvilágításban vizsgálni őket. A zavarmátrix ismét lehetővé teszi az elemzők számára, hogy mélyebbre ássanak, és megvizsgálják, mi járul hozzá a modell általános pontosságához. Ezután megalapozott döntést hozhatnak arról, hogy elfogadják-e a modellt, vagy addig dolgoznak rajta, amíg a hibák el nem oszlanak olyan módon, amely az általános közbiztonsági vagy hírszerzési célkitűzés fényében értelmes. Bár ez a folyamat ezen a ponton kissé homályosnak tűnhet, aláhúzza a területi szakértelemmel rendelkező elemzők kiválasztásának fontosságát. Azok a személyek, akik tudják, honnan származnak az adatok, és mire fogják felhasználni azokat, végső soron meg tudják különböztetni az elfogadható és a nem elfogadható hibákat. Valaki, aki sokat tud a statisztikai elemzésről, képes lehet rendkívül elegáns és nagy előrejelző képességű modelleket létrehozni, de ha a modell következetesen azt jósolja, hogy egy fegyveres rablás soha nem fog súlyos testi sértéssé fajulni, mert az elemző nem tudta, hogy ezek az események viszonylag ritkák, annak komoly következményei lehetnek. Bár ez egy szélsőséges példának tűnhet, amely szinte bárki számára tökéletesen nyilvánvaló lenne, ennél sokkal finomabb problémák is rendszeresen előfordulnak, és hasonló káros következményekkel járhatnak. Ennek a kérdésnek a végső következménye az, hogy a közbiztonsági közösségen belüli emberek vannak a legjobb helyzetben a saját adataik elemzéséhez. Ez nem jelenti azt, hogy helytelen külső elemzői segítséget kérni, de ennek a felelősségnek a teljes elhárítása, ahogyan az egyre gyakrabban előfordulni látszik, súlyos következményekkel járhat az elemzési folyamatot átható számos ilyen probléma finom természete miatt. Ez a pont rávilágít annak fontosságára is, hogy az egész analitikai folyamat során együtt kell működni az operatív személyzettel, a legtöbb analitikai termék végső felhasználójával. Bár az adott szoftver vagy algoritmus ismerete és megértése tekintetében kissé korlátozottak lehetnek, a végső operatív célokkal kapcsolatos rálátásuk és felfogásuk jelentősen javíthatja a döntéshozatali folyamatot, amikor költség/haszon és hibakezelési kérdésekkel kell foglalkozni.

A bűnügyi és hírszerzési elemzés jellegéből adódóan nem szokatlan, hogy ritkán előforduló eseményekkel és egyenlőtlen eloszlásokkal találkozunk. Sajnos az adatbányászati és statisztikai szoftverek számos alapértelmezett beállítása automatikusan olyan döntési fákat vagy szabálykészleteket hoz létre, amelyek előre be vannak programozva az esetek egyenletes eloszlására. Ez óriási problémát jelenthet, amikor ritkán előforduló eseményekkel vagy egyébként egyenlőtlen eloszlásokkal van dolgunk. Másképpen fogalmazva: a program feltételezi, hogy az előzetes valószínűségek vagy “priorok” 50:50, vagy valamilyen más egyenletes eloszlású arányúak. Általában van mód ennek visszaállítására, akár automatikusan, akár manuálisan. Az automatikus beállításoknál a lehetőség általában az, hogy az előre jelzett vagy várható valószínűségeket úgy állítsuk be, hogy azok megfeleljenek a mintában lévő előzetes vagy megfigyelt gyakoriságoknak. Ebben az esetben a szoftver kiszámítja egy adott esemény vagy esemény megfigyelt gyakoriságát a mintaadatokban, majd ezt az arányt használja egy olyan modell létrehozásához, amely hasonló előrejelzett gyakoriságot eredményez. Bizonyos helyzetekben azonban előnyös lehet a priorok kézi beállítása. Például amikor a kockázatot próbáljuk kezelni vagy egy különösen súlyos hiba költségét csökkenteni, szükség lehet egy olyan modell létrehozására, amely a kívánt eredménytől és a téves besorolási hibák jellegétől függően vagy túlságosan nagyvonalú, vagy nagyon szigorú. Egyes szoftverprogramok hasonló típusú hibakezelést kínálnak, lehetővé téve a felhasználó számára, hogy meghatározza az egyes osztályozási hibák “költségét”, olyan modellek létrehozására törekedve, amelyek maximalizálják a pontosságot, miközben biztosítják a hibák elfogadható eloszlását.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.