Robbery

, Author

1.5.1 Nieczęste zdarzenia

Gdy mamy do czynienia z przestępstwami z użyciem przemocy i innymi wzorcami złego zachowania, takimi jak terroryzm, fakt, że jest to stosunkowo nieczęste zdarzenie jest bardzo dobrą rzeczą dla prawie wszystkich, z wyjątkiem analityków. Im mniejszy rozmiar próbki, generalnie, tym łatwiej jest popełnić błędy. Błędy te mogą wystąpić z wielu powodów, z których niektóre zostaną omówione bardziej szczegółowo w rozdziale 5. W modelowaniu, nieczęste zdarzenia mogą stwarzać problemy, szczególnie gdy są związane z rażąco nierównymi rozkładami próby.

Podczas analizy napadów z bronią w ręku związanych z napadami z bronią w ręku stwierdziliśmy, że bardzo niewiele napadów z bronią w ręku eskaluje do napadu z bronią w ręku.3 W rzeczywistości stwierdziliśmy, że mniej niż 5% wszystkich napadów z bronią w ręku eskaluje do napadu z bronią w ręku. Ponownie, jest to bardzo dobra rzecz z punktu widzenia bezpieczeństwa publicznego, chociaż stanowi istotne wyzwanie dla rozwoju modeli predykcyjnych, jeśli analityk nie jest ostrożny.

Badając to bardziej szczegółowo, staje się oczywiste, że można stworzyć bardzo prosty model, który ma wskaźnik dokładności większy niż 95%. Innymi słowy, ten prosty model może poprawnie przewidzieć eskalację napadu z bronią w ręku w agresywną napaść w 95% przypadków. Na pierwszy rzut oka brzmi to fenomenalnie. Mając tak dokładny model, proaktywne wdrożenie go i wyeliminowanie brutalnej przestępczości w ciągu tygodnia wydaje się prostą sprawą. Badając ten model dalej, znajdujemy jednak krytyczną wadę: istnieje tylko jedna reguła podejmowania decyzji, a jest nią „nie”. Przewidując, że napad z bronią w ręku nigdy nie przerodzi się w napaść z bronią w ręku, model byłby poprawny w 95% przypadków, ale nie byłby zbyt użyteczny. Tak naprawdę szukamy pewnych reguł decyzyjnych dotyczących napadów z bronią w ręku związanych z napadami rabunkowymi, które pozwolą nam je scharakteryzować i zamodelować. Wtedy będziemy mogli opracować proaktywne strategie, które pozwolą nam zapobiec ich wystąpieniu w przyszłości. Jak pokazuje ten nieco ekstremalny przykład, ocena skuteczności i wartości modelu to znacznie więcej niż tylko określenie jego ogólnej dokładności. Niezwykle ważne jest zidentyfikowanie natury błędów, a następnie określenie, które rodzaje błędów są dopuszczalne, a które nie.

Inny przykład rzadkich zdarzeń dotyczy ataków pirackich, które były związane z kilkoma głośnymi incydentami, w tym z atakiem na statek Maersk Alabama.4 Aby jednak przedstawić liczby w odpowiedniej perspektywie, w czasie tego konkretnego incydentu 5 Flota USA w Bahrajnie podała, że w sumie miały miejsce 122 ataki na statki przepływające przez Zatokę Adeńską.5 Spośród tych ataków 42 były „udane” z punktu widzenia piratów, co daje wskaźnik „sukcesu” dla piratów na poziomie 34%. Jednak w dodatkowym kontekście, w 2008 roku około 33 000 statków przepłynęło przez Zatokę Adeńską bez incydentów. Mniej niż 1/2 1% wszystkich statków została zaatakowana, z powodzeniem lub nie. Ponownie, moglibyśmy opracować model, który powiedziałby, że statek bezpiecznie przepływa przez Zatokę Adeńską i byłby poprawny w ponad 99% przypadków; jednak nie miałoby to żadnej wartości dla zwiększenia bezpieczeństwa morskiego w regionie.

Jednym ze sposobów oceny specyficznej natury błędów jest stworzenie czegoś, co nazywa się macierzą pomyłek lub macierzą zaufania. W ten sposób można rozdzielić i przedstawić specyficzny charakter błędów oraz ich udział w ogólnej dokładności modelu. Po określeniu, gdzie występują błędy i czy mają one znaczący wpływ na wartość ogólnego poziomu błędów i modelu, można podjąć świadomą decyzję dotyczącą akceptacji modelu. Macierze konfuzji zostaną omówione bardziej szczegółowo w rozdziale 8, który dotyczy próbek treningowych i testowych.

Macierz konfuzji jest ważnym przykładem dobrej praktyki w analizie. Może to być niezwykle cenne, aby zakwestionować wyniki, przesunąć je nieco analitycznie i zobaczyć, co się stanie, lub spojrzeć na nie w innym analitycznym świetle. Ponownie, macierz pomyłek pozwala analitykom na zagłębienie się i zbadanie, co przyczynia się do ogólnej dokładności modelu. Następnie mogą oni podjąć świadomą decyzję, czy zaakceptować model, czy też kontynuować nad nim pracę do momentu, gdy błędy zostaną rozłożone w sposób, który ma sens w świetle ogólnego celu związanego z bezpieczeństwem publicznym lub wywiadem. Chociaż w tym momencie proces ten może wydawać się nieco niejasny, podkreśla on znaczenie wyboru analityków z doświadczeniem w danej dziedzinie. Osoby, które wiedzą, skąd pochodzą dane i do czego będą ostatecznie wykorzystywane, mogą odróżnić błędy, które są dopuszczalne, od tych, które nie są. Ktoś, kto wie dużo o analizie statystycznej, może być w stanie stworzyć niezwykle eleganckie i wysoce predykcyjne modele, ale jeśli model ten konsekwentnie przewiduje, że napad z bronią w ręku nigdy nie przerodzi się w napaść z bronią w ręku, ponieważ analityk nie wiedział, że takie zdarzenia są stosunkowo rzadkie, może to mieć poważne konsekwencje. Chociaż może się to wydawać skrajnym przykładem, który byłby oczywisty dla prawie każdego, o wiele bardziej subtelne problemy występują regularnie i mogą mieć podobne szkodliwe konsekwencje. Ostateczną konsekwencją tego problemu jest to, że ludzie ze społeczności bezpieczeństwa publicznego są w najlepszej pozycji do analizowania własnych danych. Nie oznacza to, że szukanie pomocy analitycznej z zewnątrz jest złe, ale całkowite odłożenie tej odpowiedzialności, co wydaje się zdarzać coraz częściej, może mieć poważne konsekwencje ze względu na subtelną naturę wielu z tych problemów, które przenikają proces analityczny. Ten punkt podkreśla również znaczenie współpracy z personelem operacyjnym, ostatecznymi użytkownikami końcowymi większości produktów analitycznych, w trakcie całego procesu analitycznego. Chociaż mogą oni być nieco ograniczeni pod względem wiedzy i zrozumienia danego oprogramowania lub algorytmu, ich wgląd i postrzeganie ostatecznych celów operacyjnych może znacznie usprawnić proces podejmowania decyzji, gdy trzeba zająć się kwestiami kosztów/korzyści i zarządzania błędami.

Zważywszy na charakter analizy kryminalnej i wywiadowczej, nie jest niczym niezwykłym napotkanie nieczęstych zdarzeń i nierównych rozkładów. Niestety, wiele domyślnych ustawień oprogramowania do eksploracji danych i statystyki automatycznie tworzy drzewa decyzyjne lub zestawy reguł, które są zaprogramowane tak, aby równomiernie rozłożyć przypadki. Może to stanowić ogromny problem, gdy mamy do czynienia z nieczęstymi zdarzeniami lub innymi nierównymi rozkładami. Innym sposobem wyrażenia tego jest to, że program zakłada, że wcześniejsze prawdopodobieństwa lub „priorytety” są 50:50, lub w innym równomiernie rozłożonym stosunku. Ogólnie rzecz biorąc, istnieje sposób, aby to zresetować, albo automatycznie, albo ręcznie. W ustawieniach automatycznych, opcją zazwyczaj jest ustawienie przewidywanych lub oczekiwanych prawdopodobieństw tak, aby odpowiadały wcześniejszym lub obserwowanym częstościom w próbce. W tym przypadku oprogramowanie oblicza zaobserwowaną częstotliwość określonego zdarzenia lub wystąpienia w danych z próbki, a następnie wykorzystuje tę częstotliwość do wygenerowania modelu, którego wynikiem jest podobna przewidywana częstotliwość. W niektórych sytuacjach korzystne może być jednak ręczne ustawienie priorytetów. Na przykład, gdy próbuje się zarządzać ryzykiem lub zmniejszyć koszty szczególnie poważnego błędu, może być konieczne stworzenie modelu, który jest albo zbyt hojny, albo bardzo rygorystyczny, w zależności od pożądanego wyniku i natury błędów błędnej klasyfikacji. Niektóre programy oferują podobne rodzaje zarządzania błędami, pozwalając użytkownikowi na określenie „kosztu” poszczególnych błędów w klasyfikacji, w celu stworzenia modeli, które maksymalizują dokładność, zapewniając jednocześnie akceptowalny rozkład błędów.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.