1.5.1 Evenimente puțin frecvente
Când avem de-a face cu infracțiuni violente și alte modele de comportament rău, cum ar fi terorismul, faptul că este un eveniment relativ puțin frecvent este un lucru foarte bun pentru aproape toată lumea, cu excepția analiștilor. Cu cât dimensiunea eșantionului este mai mică, în general, cu atât este mai ușor să faci erori. Aceste erori pot apărea dintr-o varietate de motive, dintre care unele vor fi discutate mai detaliat în capitolul 5. În modelare, evenimentele puțin frecvente pot crea probleme, în special atunci când sunt asociate cu distribuții ale eșantioanelor extrem de inegale.
În timp ce analizam agresiunile agravate legate de jafuri, am constatat că foarte puține jafuri armate degenerează în agresiuni agravate.3 De fapt, am constatat că mai puțin de 5% din toate jafurile armate degenerează în agresiuni agravate. Din nou, acesta este un lucru foarte bun din punctul de vedere al siguranței publice, deși reprezintă o provocare semnificativă pentru dezvoltarea modelelor predictive dacă analistul nu este atent.
Explorând acest lucru mai în detaliu, devine evident că se poate crea un model foarte simplu care are o rată de acuratețe mai mare de 95%. Cu alte cuvinte, acest model simplu ar putea prezice corect escaladarea unui jaf armat într-o agresiune agravată în 95% din cazuri. La prima vedere, acest lucru pare fenomenal. Cu un astfel de model extrem de precis, ar părea un lucru simplu de implementat proactiv și de eliminat infracțiunile violente în decurs de o săptămână. Examinând modelul mai amănunțit, însă, găsim un defect critic: există o singură regulă de decizie, iar aceasta este „nu”. Prezicând că un jaf armat nu va escalada niciodată într-o agresiune agravată, modelul ar fi corect în 95% din cazuri, dar nu ar fi foarte util. Ceea ce căutăm cu adevărat sunt niște reguli de decizie cu privire la agresiunile agravate legate de jafuri care să ne permită să le caracterizăm și să le modelăm. Apoi vom putea dezvolta strategii proactive care ne vor permite să prevenim producerea lor în viitor. După cum demonstrează acest exemplu oarecum extrem, evaluarea eficacității și a valorii unui model este mult mai mult decât simpla determinare a acurateței sale generale. Este extrem de important să identificăm natura erorilor și apoi să determinăm ce tipuri de erori sunt acceptabile și care nu sunt.
Un alt exemplu de evenimente rare se referă la atacurile piraterești, care au fost asociate cu mai multe incidente de profil înalt, inclusiv atacul asupra navei Maersk Alabama.4 Totuși, pentru a pune cifrele în perspectivă, la momentul acestui incident particular, Flota a 5-a americană din Bahrain a raportat că au existat în total 122 de raiduri asupra navelor care făceau trecerea prin Golful Aden.5 Dintre aceste atacuri, 42 au fost „reușite” din perspectiva piraților, rezultând o rată de „succes” pentru pirați de 34%. Totuși, pentru a oferi un context suplimentar, aproximativ 33 000 de nave au trecut prin Aden în 2008 fără incidente. Mai puțin de 1/2 din 1% din toate navele au fost atacate, fie cu succes, fie fără succes. Din nou, am putea dezvolta un model care să spună că o navă face trecerea în siguranță prin Golful Aden și ar fi corect în mai mult de 99% din cazuri; cu toate acestea, acest lucru nu ar avea nicio valoare pentru consolidarea securității maritime în regiune.
O modalitate de a evalua natura specifică a erorilor este de a crea ceva numit matrice de confuzie sau de încredere. Ceea ce face aceasta este să defalce și să descrie natura specifică a erorilor și contribuția lor la acuratețea generală a modelului. Odată ce s-a stabilit unde se produc erorile și dacă acestea au un impact semnificativ asupra valorii ratei globale de eroare și a modelului, se poate lua o decizie informată cu privire la acceptarea modelului. Matricele de confuzie vor fi abordate mai detaliat în capitolul 8, care se referă la eșantioanele de instruire și de testare.
Matricea de confuzie este un exemplu important de bună practică în analiză. Poate fi extrem de valoros să contestăm rezultatele, să le împingem puțin din punct de vedere analitic și să vedem ce se întâmplă sau să le privim într-o lumină analitică diferită. Din nou, matricea de confuzie permite analiștilor să aprofundeze și să examineze ceea ce contribuie la acuratețea generală a modelului. Apoi, aceștia pot lua o decizie în cunoștință de cauză dacă să accepte modelul sau să continue să lucreze la el până când erorile sunt distribuite într-un mod care are sens în lumina obiectivului general de siguranță publică sau de informații. Deși acest proces poate părea oarecum obscur în acest moment, el subliniază importanța alegerii analiștilor cu expertiză în domeniu. Persoanele care știu de unde provin datele și pentru ce vor fi utilizate în cele din urmă pot distinge între erorile care sunt acceptabile și cele care nu sunt acceptabile. Cineva care se pricepe foarte bine la analiza statistică ar putea fi capabil să creeze modele extrem de elegante și foarte predictive, dar dacă modelul prezice în mod constant că un jaf armat nu va escalada niciodată într-o agresiune agravantă, deoarece analistul nu știa că aceste evenimente sunt relativ rare, pot exista consecințe grave. Deși acesta ar putea părea un exemplu extrem, care ar fi perfect evident pentru aproape oricine, probleme mult mai subtile apar cu regularitate și pot avea consecințe dăunătoare similare. Consecința finală a acestei probleme este că persoanele din cadrul comunității de siguranță publică sunt în cea mai bună poziție pentru a-și analiza propriile date. Aceasta nu înseamnă că este greșit să se apeleze la asistență analitică din exterior, dar amânarea totală a acestei responsabilități, așa cum pare să se întâmple din ce în ce mai des, poate avea consecințe grave din cauza naturii subtile a multora dintre aceste probleme care pătrund în procesul analitic. Acest punct subliniază, de asemenea, importanța colaborării cu personalul operațional, utilizatorii finali ai majorității produselor analitice, pe tot parcursul procesului analitic. Deși aceștia ar putea fi oarecum limitați în ceea ce privește cunoașterea și înțelegerea software-ului sau algoritmului respectiv, perspicacitatea și percepția lor cu privire la obiectivele operaționale finale pot îmbunătăți în mod semnificativ procesul de luare a deciziilor atunci când trebuie abordate probleme de gestionare a costurilor/beneficiilor și a erorilor.
Datorită naturii analizei criminalității și a informațiilor, nu este neobișnuit să se întâlnească evenimente puțin frecvente și distribuții inegale. Din nefericire, multe dintre setările implicite ale softurilor statistice și de extragere a datelor creează automat arbori de decizie sau seturi de reguli care sunt preprogramate pentru a distribui cazurile în mod egal. Acest lucru poate fi o problemă uriașă atunci când avem de-a face cu evenimente rare sau cu distribuții inegale. Un alt mod de a afirma acest lucru este că programul presupune că probabilitățile anterioare sau „prioritățile” sunt 50:50 sau un alt raport distribuit în mod egal. În general, există o modalitate de a reseta acest lucru, fie automat, fie manual. În setările automate, opțiunea este, în general, de a seta probabilitățile prezise sau așteptate pentru a corespunde frecvențelor anterioare sau observate în eșantion. În acest caz, software-ul calculează frecvența observată a unui anumit eveniment sau a unei anumite apariții în datele eșantionului și apoi utilizează această rată pentru a genera un model care are ca rezultat o frecvență prezisă similară. Cu toate acestea, în anumite situații, poate fi avantajoasă setarea manuală a priorităților. De exemplu, atunci când se încearcă să se gestioneze riscul sau să se reducă costul unei erori deosebit de grave, ar putea fi necesar să se creeze un model care este fie prea generos, fie foarte strict, în funcție de rezultatul dorit și de natura erorilor de clasificare greșită. Unele programe software oferă tipuri similare de gestionare a erorilor, permițând utilizatorului să specifice „costul” anumitor erori de clasificare, într-un efort de a crea modele care să maximizeze acuratețea, asigurând în același timp o distribuție acceptabilă a erorilor.
.