1.5.1 Eventos infrequentes
Ao lidar com crimes violentos e outros padrões de mau comportamento como o terrorismo, o facto de ser um evento relativamente infrequente é uma coisa muito boa para quase toda a gente, excepto para os analistas. Quanto menor o tamanho da amostra, geralmente, mais fácil é cometer erros. Estes erros podem ocorrer por uma variedade de razões, algumas das quais serão discutidas em maior detalhe no Capítulo 5. Na modelagem, eventos infrequentes podem criar problemas, particularmente quando associados a distribuições de amostras extremamente desiguais.
Apesos agravados relacionados a assaltos à mão armada, descobrimos que muito poucos assaltos à mão armada se transformam em assaltos agravados.3 Na verdade, descobrimos que menos de 5% de todos os assaltos à mão armada se transformam em assaltos agravados. Mais uma vez, isto é muito bom do ponto de vista da segurança pública, embora represente um desafio significativo para o desenvolvimento de modelos de previsão se o analista não for cuidadoso.
Explorando isto com mais detalhe, torna-se evidente que um modelo muito simples pode ser criado com uma taxa de precisão superior a 95%. Em outras palavras, este modelo simples poderia prever corretamente a escalada de um assalto à mão armada em um assalto agravado 95% do tempo. A princípio, isto soa fenomenal. Com um modelo tão altamente preciso, pareceria uma coisa simples implantar e acabar com o crime violento proativamente dentro de uma semana. Examinando o modelo mais a fundo, porém, encontramos uma falha crítica: existe apenas uma regra de decisão, e é “não”. Ao prever que um assalto à mão armada nunca se tornará um assalto agravado, o modelo estaria correto 95% do tempo, mas não seria muito útil. O que realmente procuramos são algumas regras de decisão relativas a assaltos agravados relacionados a assaltos à mão armada que nos permitam caracterizar e modelar esses assaltos. Então podemos desenvolver estratégias pró-ativas que nos permitirão evitar que elas ocorram no futuro. Como este exemplo um pouco extremo demonstra, avaliar a eficácia e o valor de um modelo é muito mais do que apenas determinar a sua precisão geral. É extremamente importante identificar a natureza dos erros e depois determinar que tipos de erros são aceitáveis e quais não são.
Outro exemplo de eventos raros diz respeito a ataques piratas, que têm sido associados a vários incidentes de alto nível, incluindo o ataque ao Maersk Alabama.4 Para colocar os números em perspectiva, no entanto, na altura deste incidente em particular, a 5ª Frota dos EUA no Bahrain relatou que houve um total de 122 ataques a navios que atravessavam o Golfo de Aden.5 Destes ataques, 42 foram “bem sucedidos” na perspectiva dos piratas, resultando numa taxa de “sucesso” para os piratas de 34%. No entanto, fornecendo um contexto adicional, cerca de 33.000 embarcações fizeram passagem durante 2008 sem incidentes. Menos de 1/2 de 1% de todas as embarcações foram atacadas, com ou sem sucesso. Mais uma vez, poderíamos desenvolver um modelo que diria que uma embarcação passa com segurança pelo Golfo de Aden e estaria correta mais de 99% do tempo; no entanto, isto não teria nenhum valor para aumentar a segurança marítima na região.
Uma maneira de avaliar a natureza específica dos erros é criar algo chamado de matriz de confusão ou confiança. O que isto faz é decompor e representar a natureza específica dos erros e a sua contribuição para a precisão geral do modelo. Uma vez determinado onde os erros estão ocorrendo, e se eles têm um impacto significativo no valor da taxa de erro global e do modelo, uma decisão informada pode ser tomada em relação à aceitação do modelo. As matrizes de confusão serão abordadas com mais detalhes no Capítulo 8, que abrange o treinamento e as amostras de teste.
A matriz de confusão é um exemplo importante de uma boa prática em análise. Pode ser extremamente valioso desafiar os resultados, empurrá-los um pouco em termos analíticos e ver o que acontece, ou olhar para eles com uma luz analítica diferente. Mais uma vez, a matriz de confusão permite aos analistas detalhar e examinar o que está contribuindo para a precisão geral do modelo. Depois podem tomar uma decisão informada sobre se aceitam o modelo ou se continuam a trabalhar nele até que os erros sejam distribuídos de uma forma que faça sentido à luz do objectivo geral de segurança pública ou de inteligência. Embora este processo possa parecer um pouco obscuro neste ponto, ele sublinha a importância de escolher analistas com experiência no domínio. Os indivíduos que sabem de onde vieram os dados e para que serão utilizados podem distinguir entre os erros que são aceitáveis e os que não o são. Alguém que sabe muito sobre análise estatística pode ser capaz de criar modelos extremamente elegantes e altamente preditivos, mas se o modelo prevê consistentemente que um assalto à mão armada nunca se transformará num assalto agravado porque o analista não sabia que estes eventos são relativamente pouco frequentes, podem existir consequências graves. Embora isto possa parecer um exemplo extremo que seria perfeitamente óbvio para quase todos, questões muito mais subtis ocorrem regularmente e podem ter consequências prejudiciais semelhantes. A consequência final desta questão é que as pessoas da comunidade de segurança pública estão na melhor posição para analisar os seus próprios dados. Isto não quer dizer que seja errado procurar assistência analítica externa, mas adiar totalmente esta responsabilidade, como parece estar ocorrendo com frequência crescente, pode ter sérias consequências devido à natureza sutil de muitas destas questões que permeiam o processo analítico. Este ponto também destaca a importância de trabalhar com o pessoal operacional, os usuários finais finais da maioria dos produtos analíticos, ao longo de todo o processo analítico. Embora eles possam ser um pouco limitados em termos de seu conhecimento e compreensão do software ou algoritmo em particular, seu discernimento e percepção em relação aos objetivos operacionais finais podem melhorar significativamente o processo de tomada de decisão quando questões de custo/benefício e gerenciamento de erros precisam ser abordadas.
Dada a natureza do crime e da análise de inteligência, não é incomum encontrar eventos infrequentes e distribuições irregulares. Infelizmente, muitas configurações padrão em data mining e software estatístico criam automaticamente árvores de decisão ou conjuntos de regras que são pré-programados para distribuir os casos de forma uniforme. Isto pode ser um enorme problema quando se lida com eventos infrequentes ou distribuições desiguais. Outra forma de afirmar isto é que o programa assume que as probabilidades anteriores ou “priores” são 50:50, ou alguma outra razão distribuída uniformemente. Geralmente, há uma maneira de reinicializar isto, seja automática ou manualmente. Em configurações automáticas, a opção geralmente é definir as probabilidades previstas ou esperadas para coincidir com as freqüências anteriores ou observadas na amostra. Neste caso, o software calcula a freqüência observada de um determinado evento ou ocorrência nos dados da amostra e, em seguida, utiliza esta taxa para gerar um modelo que resulte em uma freqüência prevista semelhante. Em algumas situações, no entanto, pode ser vantajoso definir os antecedentes manualmente. Por exemplo, ao tentar gerenciar riscos ou reduzir o custo de um erro particularmente grave, pode ser necessário criar um modelo que seja excessivamente generoso ou muito rigoroso, dependendo do resultado desejado e da natureza dos erros de classificação errônea. Alguns programas de software oferecem tipos similares de gestão de erros, permitindo ao utilizador especificar o “custo” de determinados erros de classificação, num esforço para criar modelos que maximizem a precisão ao mesmo tempo que asseguram uma distribuição aceitável dos erros.