1.5.1 Seltene Ereignisse
Wenn es um Gewaltverbrechen und andere schlechte Verhaltensmuster wie Terrorismus geht, ist die Tatsache, dass es sich um ein relativ seltenes Ereignis handelt, eine sehr gute Sache für fast alle, außer für die Analytiker. Je kleiner die Stichprobengröße ist, desto leichter können Fehler gemacht werden. Diese Fehler können aus einer Vielzahl von Gründen auftreten, von denen einige in Kapitel 5 ausführlicher behandelt werden. Bei der Modellierung können seltene Ereignisse zu Problemen führen, insbesondere wenn sie mit sehr ungleichen Stichprobenverteilungen verbunden sind.
Bei der Analyse raubbezogener schwerer Körperverletzungen haben wir festgestellt, dass nur sehr wenige bewaffnete Raubüberfälle zu einer schweren Körperverletzung eskalieren.3 Tatsächlich haben wir festgestellt, dass weniger als 5 % aller bewaffneten Raubüberfälle zu einer schweren Körperverletzung eskalieren. Auch dies ist aus Sicht der öffentlichen Sicherheit eine sehr gute Sache, obwohl es eine große Herausforderung für die Entwicklung von Vorhersagemodellen darstellt, wenn der Analytiker nicht vorsichtig ist.
Bei näherer Betrachtung wird deutlich, dass ein sehr einfaches Modell erstellt werden kann, das eine Genauigkeitsrate von mehr als 95 % aufweist. Mit anderen Worten: Dieses einfache Modell könnte die Eskalation eines bewaffneten Raubüberfalls zu einer schweren Körperverletzung in 95 % der Fälle korrekt vorhersagen. Auf den ersten Blick klingt das phänomenal. Mit einem so präzisen Modell scheint es ein Leichtes zu sein, die Gewaltkriminalität innerhalb einer Woche proaktiv zu bekämpfen und zu beseitigen. Bei näherer Betrachtung des Modells finden wir jedoch einen entscheidenden Fehler: Es gibt nur eine Entscheidungsregel, und die lautet „Nein“. Mit der Vorhersage, dass ein bewaffneter Raubüberfall niemals zu einer schweren Körperverletzung eskalieren wird, würde das Modell in 95 % der Fälle richtig liegen, aber es wäre nicht sehr nützlich. Was wir wirklich suchen, sind einige Entscheidungsregeln für schwere Raubüberfälle, die es uns ermöglichen, diese zu charakterisieren und zu modellieren. Dann können wir proaktive Strategien entwickeln, die es uns ermöglichen, sie in Zukunft zu verhindern. Wie dieses etwas extreme Beispiel zeigt, geht es bei der Bewertung der Wirksamkeit und des Wertes eines Modells um weit mehr als nur um die Bestimmung seiner Gesamtgenauigkeit. Es ist äußerst wichtig, die Art der Fehler zu identifizieren und dann zu bestimmen, welche Arten von Fehlern akzeptabel sind und welche nicht.
Ein weiteres Beispiel für seltene Ereignisse sind Piratenangriffe, die mit mehreren öffentlichkeitswirksamen Vorfällen in Verbindung gebracht wurden, darunter der Angriff auf die Maersk Alabama.4 Um die Zahlen in die richtige Perspektive zu rücken: Zum Zeitpunkt dieses Vorfalls meldete die 5. US-Flotte in Bahrain insgesamt 122 Überfälle auf Schiffe, die den Golf von Aden durchquerten.5 Von diesen Angriffen waren 42 aus Sicht der Piraten „erfolgreich“, was eine „Erfolgsquote“ von 34 % für die Piraten ergibt. Zum Vergleich: 2008 passierten etwa 33.000 Schiffe den Golf von Aden ohne Zwischenfälle. Weniger als 1/2 von 1 % aller Schiffe wurden angegriffen, entweder erfolgreich oder nicht. Auch hier könnten wir ein Modell entwickeln, das besagt, dass ein Schiff sicher durch den Golf von Aden fährt und in mehr als 99 % der Fälle richtig liegt; dies hätte jedoch keinen Wert für die Verbesserung der maritimen Sicherheit in der Region.
Eine Möglichkeit, die spezifische Art der Fehler zu bewerten, ist die Erstellung einer so genannten Verwirrungs- oder Vertrauensmatrix. Dabei wird die spezifische Art der Fehler und ihr Beitrag zur Gesamtgenauigkeit des Modells aufgeschlüsselt und dargestellt. Sobald festgestellt wurde, wo die Fehler auftreten und ob sie den Wert der Gesamtfehlerquote und des Modells erheblich beeinflussen, kann eine fundierte Entscheidung über die Akzeptanz des Modells getroffen werden. Konfusionsmatrizen werden in Kapitel 8, das sich mit Trainings- und Teststichproben befasst, ausführlicher behandelt.
Die Konfusionsmatrix ist ein wichtiges Beispiel für eine gute Praxis in der Analyse. Es kann äußerst wertvoll sein, die Ergebnisse zu hinterfragen, sie analytisch ein wenig zu verschieben und zu sehen, was passiert, oder sie in einem anderen analytischen Licht zu betrachten. Auch hier ermöglicht es die Konfusionsmatrix den Analysten, die einzelnen Faktoren zu untersuchen, die zur Gesamtgenauigkeit des Modells beitragen. Dann können sie eine fundierte Entscheidung darüber treffen, ob sie das Modell akzeptieren oder weiter daran arbeiten wollen, bis die Fehler so verteilt sind, dass sie im Hinblick auf das Gesamtziel der öffentlichen Sicherheit oder der Aufklärung sinnvoll sind. Auch wenn dieser Prozess an dieser Stelle etwas undurchsichtig erscheinen mag, unterstreicht er doch, wie wichtig es ist, Analysten mit Fachwissen auszuwählen. Personen, die wissen, woher die Daten stammen und wofür sie letztlich verwendet werden, können zwischen akzeptablen und nicht akzeptablen Fehlern unterscheiden. Jemand, der sich sehr gut mit statistischer Analyse auskennt, kann vielleicht äußerst elegante und hochgradig vorhersagende Modelle erstellen, aber wenn das Modell konsequent vorhersagt, dass ein bewaffneter Raubüberfall niemals zu einer schweren Körperverletzung eskalieren wird, weil der Analyst nicht wusste, dass diese Ereignisse relativ selten sind, kann das schwerwiegende Folgen haben. Obwohl dies ein extremes Beispiel zu sein scheint, das fast jedem einleuchten würde, treten regelmäßig weitaus subtilere Probleme auf, die ähnlich schädliche Folgen haben können. Die letzte Konsequenz aus diesem Problem ist, dass die Leute in der öffentlichen Sicherheit am besten in der Lage sind, ihre eigenen Daten zu analysieren. Das soll nicht heißen, dass es falsch ist, externe analytische Unterstützung in Anspruch zu nehmen, aber eine völlige Verlagerung dieser Verantwortung, wie sie anscheinend immer häufiger vorkommt, kann aufgrund der subtilen Natur vieler dieser Probleme, die den Analyseprozess durchdringen, schwerwiegende Folgen haben. Dieser Punkt unterstreicht auch die Bedeutung der Zusammenarbeit mit dem Betriebspersonal, den letztendlichen Endnutzern der meisten Analyseprodukte, während des gesamten Analyseprozesses. Auch wenn ihre Kenntnisse und ihr Verständnis für die jeweilige Software oder den Algorithmus begrenzt sind, können ihr Einblick und ihre Wahrnehmung hinsichtlich der letztendlichen operativen Ziele den Entscheidungsfindungsprozess erheblich verbessern, wenn Fragen des Kosten-Nutzen-Verhältnisses und des Fehlermanagements behandelt werden müssen.
Angesichts der Art der Kriminalitäts- und Nachrichtenanalyse ist es nicht ungewöhnlich, dass seltene Ereignisse und ungleichmäßige Verteilungen auftreten. Leider erstellen viele Standardeinstellungen von Data-Mining- und Statistiksoftware automatisch Entscheidungsbäume oder Regelsätze, die so vorprogrammiert sind, dass die Fälle gleichmäßig verteilt werden. Dies kann ein großes Problem darstellen, wenn es um seltene Ereignisse oder ungleiche Verteilungen geht. Man kann es auch so ausdrücken, dass das Programm davon ausgeht, dass die Prioritätswahrscheinlichkeiten oder „Priors“ 50:50 oder in einem anderen gleichmäßigen Verhältnis verteilt sind. Im Allgemeinen gibt es eine Möglichkeit, dies entweder automatisch oder manuell zurückzusetzen. Bei den automatischen Einstellungen besteht die Option im Allgemeinen darin, die vorhergesagten oder erwarteten Wahrscheinlichkeiten so einzustellen, dass sie mit den vorherigen oder beobachteten Häufigkeiten in der Stichprobe übereinstimmen. In diesem Fall berechnet die Software die beobachtete Häufigkeit eines bestimmten Ereignisses oder Vorkommens in den Stichprobendaten und verwendet dann diese Häufigkeit, um ein Modell zu erstellen, das zu einer ähnlichen vorhergesagten Häufigkeit führt. In manchen Situationen kann es jedoch von Vorteil sein, die Prioritäten manuell festzulegen. Wenn beispielsweise versucht wird, das Risiko zu steuern oder die Kosten eines besonders schwerwiegenden Fehlers zu reduzieren, kann es notwendig sein, ein Modell zu erstellen, das entweder übermäßig großzügig oder sehr streng ist, je nach dem gewünschten Ergebnis und der Art der Fehlklassifizierungsfehler. Einige Softwareprogramme bieten ähnliche Arten von Fehlermanagement, indem sie dem Benutzer die Möglichkeit geben, die „Kosten“ bestimmter Fehler bei der Klassifizierung anzugeben, um Modelle zu erstellen, die die Genauigkeit maximieren und gleichzeitig eine akzeptable Fehlerverteilung gewährleisten.