1.5.1 Zřídka se vyskytující události
Při řešení násilné trestné činnosti a dalších vzorců špatného chování, jako je terorismus, je skutečnost, že se jedná o relativně zřídka se vyskytující událost, velmi dobrá téměř pro všechny, kromě analytiků. Čím menší je obecně vzorek, tím snadněji se lze dopustit chyb. K těmto chybám může dojít z různých důvodů, z nichž některé budou podrobněji rozebrány v kapitole 5. Při modelování mohou vzácné události způsobit problémy, zejména pokud jsou spojeny s hrubě nerovnoměrným rozdělením vzorku.
Při analýze loupežných přepadení s přitěžujícími okolnostmi jsme zjistili, že jen velmi málo ozbrojených přepadení přeroste v útok s přitěžujícími okolnostmi.3 Ve skutečnosti jsme zjistili, že méně než 5 % všech ozbrojených přepadení přeroste v útok s přitěžujícími okolnostmi. To je opět velmi dobrá věc z hlediska veřejné bezpečnosti, i když to představuje značnou výzvu pro vývoj prediktivních modelů, pokud si analytik nedá pozor.
Při podrobnějším zkoumání je zřejmé, že lze vytvořit velmi jednoduchý model, který má přesnost vyšší než 95 %. Jinými slovy, tento jednoduchý model by dokázal správně předpovědět přerůstání ozbrojeného přepadení v útok s přitěžujícími okolnostmi v 95 % případů. Na první pohled to zní fenomenálně. Zdálo by se, že s takto vysoce přesným modelem je jednoduché jej proaktivně nasadit a do týdne vymýtit násilnou trestnou činnost. Při hlubším zkoumání modelu však zjistíme zásadní chybu: existuje pouze jedno rozhodovací pravidlo, a to „ne“. Tím, že model předpovídá, že ozbrojená loupež nikdy nepřeroste v útok s přitěžujícími okolnostmi, by byl sice v 95 % případů správný, ale nebyl by příliš užitečný. Ve skutečnosti hledáme nějaká rozhodovací pravidla týkající se loupežných přepadení s přitěžujícími okolnostmi, která nám umožní je charakterizovat a modelovat. Pak budeme moci vyvinout proaktivní strategie, které nám umožní zabránit jejich výskytu v budoucnu. Jak ukazuje tento poněkud extrémní příklad, hodnocení účinnosti a hodnoty modelu je mnohem víc než jen určení jeho celkové přesnosti. Je nesmírně důležité určit povahu chyb a následně určit, které typy chyb jsou přijatelné a které ne.
Další příklad vzácných událostí se týká pirátských útoků, které byly spojeny s několika významnými incidenty včetně útoku na loď Maersk Alabama.4 Abychom však čísla uvedli na pravou míru, v době tohoto konkrétního incidentu hlásila 5. flotila USA v Bahrajnu, že došlo k celkem 122 nájezdům na plavidla, která proplouvala Adenským zálivem.5 Z těchto útoků bylo 42 z pohledu pirátů „úspěšných“, což pro piráty znamenalo 34% „úspěšnost“. Pro dokreslení kontextu je třeba uvést, že v roce 2008 proplulo přibližně 33 000 plavidel bez incidentů. Úspěšně nebo neúspěšně bylo napadeno méně než 1/2 1 % všech plavidel. Opět bychom mohli vytvořit model, který by říkal, že plavidlo bezpečně propluje Adenským zálivem a byl by správný ve více než 99 % případů; to by však nemělo žádnou hodnotu pro zvýšení námořní bezpečnosti v regionu.
Jedním ze způsobů, jak vyhodnotit konkrétní povahu chyb, je vytvořit něco, čemu se říká matice zmatení nebo matice spolehlivosti. Ta slouží k rozdělení a znázornění konkrétní povahy chyb a jejich podílu na celkové přesnosti modelu. Jakmile se určí, kde se chyby vyskytují a zda významně ovlivňují hodnotu celkové chybovosti a modelu, lze učinit informované rozhodnutí o přijetí modelu. Maticím záměny se budeme podrobněji věnovat v kapitole 8, která se zabývá tréninkovými a testovacími vzorky.
Matrice záměny je důležitým příkladem správné praxe při analýze. Může být nesmírně cenné zpochybnit výsledky, trochu je analyticky posunout a zjistit, co se stane, nebo se na ně podívat v jiném analytickém světle. Matice záměny opět umožňuje analytikům proniknout hlouběji a prozkoumat, co přispívá k celkové přesnosti modelu. Pak mohou učinit informované rozhodnutí, zda model přijmout, nebo na něm dále pracovat, dokud se chyby nerozloží způsobem, který dává smysl s ohledem na celkový cíl veřejné bezpečnosti nebo zpravodajství. I když se tento proces může zdát v tuto chvíli poněkud nepřehledný, podtrhuje důležitost výběru analytiků s odbornými znalostmi v dané oblasti. Osoby, které vědí, odkud údaje pocházejí a k čemu budou nakonec použity, mohou rozlišit mezi těmi chybami, které jsou přijatelné, a těmi, které přijatelné nejsou. Někdo, kdo ví hodně o statistické analýze, může být schopen vytvořit extrémně elegantní a vysoce prediktivní modely, ale pokud model důsledně předpovídá, že ozbrojené přepadení nikdy nepřeroste v útok s přitěžujícími okolnostmi, protože analytik nevěděl, že tyto události jsou relativně málo časté, může to mít vážné důsledky. Ačkoli se to může zdát jako extrémní příklad, který by byl naprosto zřejmý téměř každému, pravidelně se vyskytují mnohem subtilnější problémy, které mohou mít podobné škodlivé důsledky. Konečným důsledkem tohoto problému je, že lidé v rámci komunity veřejné bezpečnosti jsou v nejlepší pozici pro analýzu vlastních dat. To neznamená, že je špatné vyhledat externí analytickou pomoc, ale úplné odložení této odpovědnosti, jak se zdá, že se objevuje stále častěji, může mít vážné důsledky vzhledem k subtilní povaze mnoha těchto problémů, které prostupují analytickým procesem. Tento bod také zdůrazňuje důležitost spolupráce s provozním personálem, který je konečným uživatelem většiny analytických produktů, v průběhu celého analytického procesu. I když mohou být poněkud omezeni, pokud jde o jejich znalosti a porozumění konkrétnímu softwaru nebo algoritmu, jejich vhled a vnímání týkající se konečných operačních cílů mohou významně zlepšit rozhodovací proces, když je třeba řešit otázky poměru nákladů a přínosů a řízení chyb.
Vzhledem k povaze kriminální a zpravodajské analýzy není neobvyklé, že se setkáváme s řídkými událostmi a nerovnoměrným rozložením. Bohužel mnoho výchozích nastavení softwaru pro dolování dat a statistického softwaru automaticky vytváří rozhodovací stromy nebo soubory pravidel, které jsou předem naprogramovány tak, aby případy rozdělovaly rovnoměrně. To může být při práci s řídkými událostmi nebo jinak nerovnoměrným rozdělením velký problém. Jiný způsob, jak to vyjádřit, je, že program předpokládá, že předběžné pravděpodobnosti nebo „priory“ jsou 50:50 nebo nějaký jiný rovnoměrně rozložený poměr. Obecně existuje způsob, jak toto nastavení přenastavit, a to buď automaticky, nebo ručně. Při automatickém nastavení je zpravidla možné nastavit predikované nebo očekávané pravděpodobnosti tak, aby odpovídaly prioritním nebo pozorovaným četnostem ve vzorku. V tomto případě software vypočítá pozorovanou četnost určité události nebo výskytu v datech vzorku a poté tuto míru použije k vytvoření modelu, jehož výsledkem je podobná předpovídaná četnost. V některých situacích však může být výhodné nastavit priory ručně. Například při snaze řídit riziko nebo snížit náklady na zvláště závažnou chybu může být nutné vytvořit model, který je buď příliš velkorysý, nebo velmi přísný, v závislosti na požadovaném výsledku a povaze chybné klasifikace. Některé softwarové programy nabízejí podobné typy řízení chyb tím, že umožňují uživateli specifikovat „cenu“ konkrétních chyb v klasifikaci ve snaze vytvořit modely, které maximalizují přesnost a zároveň zajišťují přijatelné rozložení chyb.
.