1.5.1 Ovanliga händelser
När det gäller våldsbrott och andra mönster av dåligt beteende, som terrorism, är det faktum att det är en relativt ovanlig händelse en mycket bra sak för nästan alla, utom analytikerna. Ju mindre urvalet är, i allmänhet, desto lättare är det att göra fel. Dessa fel kan uppstå av en mängd olika skäl, varav några kommer att diskuteras närmare i kapitel 5. Vid modellering kan sällsynta händelser skapa problem, särskilt när de är förknippade med grovt ojämna stickprovsfördelningar.
När vi analyserade rånrelaterade grova misshandelsfall fann vi att mycket få väpnade rån eskalerar till ett grovt misshandelsfall.3 I själva verket fann vi att mindre än 5 % av alla väpnade rån eskalerade till ett grovt misshandelsfall. Återigen är detta en mycket bra sak ur allmän säkerhetssynpunkt, även om det innebär en betydande utmaning för utvecklingen av prediktiva modeller om analytikern inte är försiktig.
Om man utforskar detta mer i detalj blir det uppenbart att man kan skapa en mycket enkel modell som har en noggrannhet på mer än 95 %. Med andra ord kan denna enkla modell korrekt förutsäga att ett väpnat rån eskalerar till en grov misshandel i 95 % av fallen. Vid en första anblick låter detta fenomenalt. Med en sådan mycket exakt modell skulle det vara enkelt att proaktivt sätta in och utplåna våldsbrott inom en vecka. När vi undersöker modellen närmare finner vi dock en kritisk brist: Det finns bara en beslutsregel, och den är ”nej”. Genom att förutsäga att ett väpnat rån aldrig kommer att eskalera till en grov misshandel skulle modellen vara korrekt i 95 procent av fallen, men den skulle inte vara särskilt användbar. Vad vi egentligen letar efter är några beslutsregler för rånrelaterade grova överfall som gör det möjligt för oss att karakterisera och modellera dem. Sedan kan vi utveckla proaktiva strategier som gör att vi kan förhindra att de inträffar i framtiden. Som detta något extrema exempel visar är utvärderingen av en modells effektivitet och värde mycket mer än att bara fastställa dess totala noggrannhet. Det är oerhört viktigt att identifiera felens karaktär och sedan avgöra vilka typer av fel som är acceptabla och vilka som inte är det.
Ett annat exempel på sällsynta händelser gäller piratattacker, som har förknippats med flera uppmärksammade incidenter, bland annat attacken mot Maersk Alabama.4 För att sätta siffrorna i perspektiv rapporterade USA:s femte flotta i Bahrain vid tiden för just denna incident att det totalt förekom 122 attacker mot fartyg som passerade genom Adenviken.5 Av dessa attacker var 42 ”framgångsrika” ur piraternas synvinkel, vilket resulterade i en ”framgångsfrekvens” för piraterna på 34 %. För att ge ytterligare ett sammanhang kan dock nämnas att cirka 33 000 fartyg passerade under 2008 utan incidenter. Mindre än 1/2 av 1 % av alla fartyg attackerades, vare sig de lyckades eller inte. Återigen skulle vi kunna utveckla en modell som säger att ett fartyg säkert passerar genom Adenviken och som skulle vara korrekt i mer än 99 % av fallen, men detta skulle inte ha något värde för att förbättra sjöfartsskyddet i regionen.
Ett sätt att utvärdera felens specifika karaktär är att skapa något som kallas en förvirrings- eller konfidensmatris. Vad detta gör är att dela upp och skildra felens specifika karaktär och deras bidrag till modellens totala noggrannhet. När man väl har fastställt var felen uppstår och om de har en betydande inverkan på värdet av den totala felprocenten och modellen, kan man fatta ett välgrundat beslut om att godkänna modellen. Förvirringsmatriser kommer att behandlas mer ingående i kapitel 8, som behandlar tränings- och testprover.
Förvirringsmatrisen är ett viktigt exempel på god praxis i analysen. Det kan vara ytterst värdefullt att utmana resultaten, att knuffa runt dem lite analytiskt och se vad som händer, eller att se på dem i ett annat analytiskt ljus. Återigen gör förvirringsmatrisen det möjligt för analytiker att gå ner och undersöka vad som bidrar till modellens övergripande noggrannhet. Därefter kan de fatta ett välgrundat beslut om huruvida de ska acceptera modellen eller fortsätta att arbeta med den tills felen fördelas på ett sätt som är meningsfullt mot bakgrund av det övergripande målet för den allmänna säkerheten eller underrättelseverksamheten. Även om denna process kan verka något oklar i det här läget, understryker den vikten av att välja analytiker med domänkompetens. Personer som vet varifrån uppgifterna kommer och vad de kommer att användas till kan i slutändan skilja mellan de fel som är acceptabla och de som inte är acceptabla. Någon som vet mycket om statistisk analys kan kanske skapa extremt eleganta och mycket förutsägbara modeller, men om modellen konsekvent förutsäger att ett väpnat rån aldrig kommer att eskalera till en grov misshandel, eftersom analytikern inte visste att dessa händelser är relativt sällsynta, kan det få allvarliga konsekvenser. Även om detta kan tyckas vara ett extremt exempel som skulle vara helt uppenbart för nästan vem som helst, förekommer betydligt mer subtila problem regelbundet och kan få liknande skadliga konsekvenser. Den yttersta konsekvensen av denna fråga är att det är de som arbetar inom den offentliga säkerheten som är bäst lämpade att analysera sina egna uppgifter. Detta innebär inte att det är fel att söka extern analytisk hjälp, men att helt skjuta upp detta ansvar, vilket tycks ske allt oftare, kan få allvarliga konsekvenser på grund av den subtila karaktären hos många av dessa frågor som genomsyrar analysprocessen. Denna punkt belyser också vikten av att arbeta med den operativa personalen, som är de slutliga användarna av de flesta analysprodukter, under hela analysprocessen. Även om de kan vara något begränsade när det gäller deras kunskap om och förståelse av den särskilda programvaran eller algoritmen, kan deras insikt och uppfattning om de slutliga operativa målen avsevärt förbättra beslutsprocessen när frågor om kostnad/nytta och felhantering måste tas upp.
Med tanke på brotts- och underrättelseanalysens karaktär är det inte ovanligt att man stöter på sällsynta händelser och ojämna fördelningar. Tyvärr skapar många standardinställningar i datautvinning och statistisk programvara automatiskt beslutsträd eller regeluppsättningar som är förprogrammerade för att fördela fallen jämnt. Detta kan vara ett stort problem när man har att göra med sällsynta händelser eller på annat sätt ojämna fördelningar. Ett annat sätt att uttrycka detta är att programmet antar att de tidigare sannolikheterna eller ”priors” är 50:50, eller något annat jämnt fördelat förhållande. I allmänhet finns det ett sätt att återställa detta, antingen automatiskt eller manuellt. Vid automatiska inställningar är alternativet i allmänhet att ställa in de förutspådda eller förväntade sannolikheterna så att de stämmer överens med de prioriterade eller observerade frekvenserna i urvalet. I detta fall beräknar programvaran den observerade frekvensen av en viss händelse eller förekomst i provdata och använder sedan denna frekvens för att generera en modell som resulterar i en liknande förutspådd frekvens. I vissa situationer kan det dock vara fördelaktigt att ställa in priorerna manuellt. När man till exempel försöker hantera risker eller minska kostnaderna för ett särskilt allvarligt fel kan det vara nödvändigt att skapa en modell som antingen är överdrivet generös eller mycket sträng, beroende på det önskade resultatet och arten av felklassificeringar. Vissa mjukvaruprogram erbjuder liknande typer av felhantering genom att låta användaren specificera ”kostnaden” för särskilda fel i klassificeringen, i ett försök att skapa modeller som maximerar noggrannheten samtidigt som de säkerställer en acceptabel fördelning av fel.