1.5.1 Infrequent Events
暴力犯罪やテロのような悪行パターンを扱う場合、それが比較的まれな出来事だということは、分析者を除いてほぼ全員にとって非常に良いことである。 一般にサンプル数が少なければ少ないほど、誤差が生じやすくなります。 これらのエラーは様々な理由で発生するが、そのうちのいくつかは第5章でより詳細に説明する。 4498>
強盗に関連した加重暴行を分析しているときに,武装強盗が加重暴行にエスカレートすることは非常に少ないことがわかった3. 4498>
これをさらに詳しく調べてみると、95%以上の精度を持つ非常に単純なモデルを作成できることがわかります。 言い換えれば、この単純なモデルは、武装強盗が加重暴行にエスカレートすることを 95% の確率で正しく予測することができます。 一見すると、これは驚異的なことです。 これほど精度の高いモデルがあれば、積極的に展開し、1週間以内に暴力犯罪を一掃することなど簡単なことのように思えるだろう。 しかし、このモデルをさらに検証してみると、重大な欠陥があることがわかる。決定ルールは1つだけで、それは “No “である。 武装強盗が加重暴行に発展することはない」と予測すれば、このモデルは95%の確率で正しいが、あまり有用ではないだろう。 私たちが本当に求めているのは、強盗に関連する加重暴行を特徴づけ、モデル化することを可能にするような、何らかの決定規則です。 そうすれば、将来的にこうした事件が起こらないようにするための予防的な戦略を開発することができます。 このやや極端な例が示すように、モデルの有効性と価値を評価することは、その全体的な精度を決定することよりもはるかに重要です。 エラーの性質を特定し、どのタイプのエラーが許容され、どのエラーが許容されないかを判断することが極めて重要です。
また、まれな事象の例として、海賊の襲撃があり、マースク・アラバマ号への襲撃などいくつかの有名な事件と関連付けられています4。 この事件当時、バーレーンの米第5艦隊は、アデン湾を航行中の船舶に対する襲撃が合計122件あったと報告している5。 しかし、2008 年には、約 33,000 隻の船舶が何事もなく通航している。 このうち、成功したかどうかにかかわらず、攻撃を受けた船舶は全体の1/2以下である。 繰り返しになりますが、船舶がアデン湾を安全に通過し、99%以上の確率で正しいというモデルを開発することはできますが、これはこの地域の海上保安を強化する上で何の価値もありません。 これは、誤差の具体的な性質と、モデルの全体的な精度に対するその寄与を分解して描写するものです。 どこでエラーが発生しているのか、そしてそのエラーが全体のエラー率やモデルの値に大きな影響を及ぼしているのかがわかれば、そのモデルを採用するかどうか、十分な情報を得た上で決定することができるのです。 混同行列については、トレーニングサンプルとテストサンプルを扱う第8章で、より詳細に扱います。 結果に異議を唱え、分析的に少し押し込んで何が起こるかを見たり、別の分析的な観点から結果を見たりすることは、非常に価値があることです。 ここでも、混同マトリックスによって、分析者はモデルの全体的な精度に何が寄与しているかを掘り下げ、検討することができます。 そして、そのモデルを採用するか、あるいは公共安全や情報提供の目的全体に照らして納得のいく形で誤差が分散されるまで作業を継続するかについて、十分な情報を得た上で決断することができます。 このプロセスは、現時点ではやや不明瞭に思えるかもしれませんが、専門分野に精通したアナリストを選択することの重要性が強調されています。 データがどこから来て、何に使われるかを最終的に知っている人は、許容できるエラーとそうでないものを区別することができます。 統計解析に詳しい人なら、非常に洗練された高度な予測モデルを作成できるかもしれません。しかし、そのモデルが、武装強盗が比較的頻繁に起こることを知らなかったために、武装強盗が加重暴行に発展することはないと一貫して予測した場合、深刻な結果を招く可能性があります。 これは、ほとんどの人にとって完全に明白な極端な例のように見えるかもしれませんが、はるかに微妙な問題が定期的に発生し、同様の有害な結果をもたらす可能性があります。 この問題の最終的な帰結は、公共安全のコミュニティの中の人々が、自分たちのデータを分析するのに最適な立場にあるということです。 外部からの分析支援を求めることが悪いというわけではありませんが、最近増えているように、この責任を完全に先送りすると、分析プロセスに浸透しているこれらの問題の多くが微妙な性質を持つために、深刻な結果を招く可能性があります。 この点からも、ほとんどの分析製品の最終的なエンドユーザーである運用担当者と分析プロセスを通じて協働することの重要性が浮き彫りになっている。 特定のソフトウェアやアルゴリズムに関する知識や理解という点ではやや制限されるかもしれませんが、最終的な運用目標に関する彼らの洞察力や認識により、コスト/利益やエラー管理の問題に対処する必要がある場合、意思決定プロセスが大幅に強化されます。 残念ながら、データマイニングや統計ソフトのデフォルト設定の多くは、ケースを均等に分配するようにあらかじめプログラムされた決定木やルールセットを自動的に作成します。 これは、頻度の低い事象や不均等な分布を扱う際に、大きな問題となることがある。 別の言い方をすれば、プログラムは事前確率または「事前値」が50:50、または他の均等な分布比であると仮定しているのです。 一般に、これをリセットする方法は、自動的または手動的に存在します。 自動設定では、一般に、予測または期待される確率を標本の事前確率または観察された頻度に一致するように設定することができます。 この場合、ソフトウェアはサンプルデータにおける特定のイベントや発生の観測頻度を計算し、この率を使用して同様の予測頻度になるモデルを生成します。 しかし、状況によっては、プライヤーを手動で設定することが有利な場合もあります。 例えば、リスクを管理したり、特に重大なエラーのコストを削減しようとする場合、望ましい結果と誤分類エラーの性質に応じて、過度に寛大なモデルや非常に厳しいモデルを作成する必要があるかもしれません。 いくつかのソフトウェアプログラムでは、許容できる誤差の分布を確保しながら精度を最大化するモデルを作成するために、分類における特定の誤差の「コスト」を指定できるようにして、同様のタイプの誤差管理を提供しています
。