Classificação é uma abordagem supervisionada de aprendizagem de máquinas, na qual o algoritmo aprende com os dados que lhe são fornecidos – e depois usa esta aprendizagem para classificar novas observações.
Em outras palavras, o conjunto de dados de treino é usado para obter melhores condições de limite que podem ser usadas para determinar cada classe alvo; uma vez que tais condições de limite são determinadas, a próxima tarefa é prever a classe alvo.
Os classificadores binários trabalham com apenas duas classes ou resultados possíveis (exemplo: sentimento positivo ou negativo; se o emprestador pagará empréstimo ou não; etc.), e os classificadores Multiclasse trabalham com múltiplas classes (ex: a que país uma bandeira pertence, se uma imagem é uma maçã ou uma banana ou laranja; etc.). Multiclasse assume que cada amostra é atribuída a uma e apenas uma etiqueta.
Um dos primeiros algoritmos populares de classificação na aprendizagem de máquinas foi Naive Bayes, um classificador probabilístico inspirado no teorema de Bayes (que nos permite fazer uma dedução fundamentada dos eventos que acontecem no mundo real com base no conhecimento prévio de observações que possam implicá-lo). O nome (“Naive”) deriva do fato de que o algoritmo assume que os atributos são condicionalmente independentes.
O algoritmo é um algoritmo simples de implementar e geralmente representa um método razoável para dar início aos esforços de classificação. Ele pode facilmente escalar para conjuntos de dados maiores (leva tempo linear versus aproximação iterativa, como usado para muitos outros tipos de classificadores, que é mais caro em termos de recursos de computação) e requer pequena quantidade de dados de treinamento.
No entanto, Naive Bayes pode sofrer de um problema conhecido como ‘ problema de probabilidade zero ‘, quando a probabilidade condicional é zero para um determinado atributo, falhando em fornecer uma previsão válida. Uma solução é utilizar um procedimento de suavização (ex: método Laplace).
Árvores de decisão são em geral simples de entender e visualizar, requerendo pouca preparação de dados. Este método também pode lidar com dados numéricos e categóricos. Por outro lado, árvores complexas não generalizam bem (“overfitting”), e árvores de decisão podem ser um pouco instáveis porque pequenas variações nos dados podem resultar na geração de uma árvore completamente diferente.
Um método de classificação derivado de árvores de decisão é o Random Forest, essencialmente um “meta-estimador” que se encaixa em várias subamostras de conjuntos de dados e usa a média para melhorar a precisão preditiva do modelo e controla o excesso de ajuste. O tamanho da subamostra é o mesmo que o tamanho da amostra de entrada original – mas as amostras são desenhadas com substituição.
As Florestas Aleatórias tendem a exibir maior grau de robustez ao sobreajuste (>robustez ao ruído nos dados), com tempo de execução eficiente mesmo em conjuntos de dados maiores. No entanto, são mais sensíveis a conjuntos de dados desequilibrados, sendo também um pouco mais complexos de interpretar e exigindo mais recursos computacionais.
Outro classificador popular no ML é o Logistic Regression – onde probabilidades descrevendo os possíveis resultados de um único estudo são modeladas usando uma função logística (método de classificação apesar do nome):
Aqui está como é a equação logística:
>
E (expoente) em ambos os lados da equação resulta:
Regressão Lógica é mais útil para compreender a influência de várias variáveis independentes em uma única variável de resultado. Ela é focada na classificação binária (para problemas com múltiplas classes, usamos extensões de regressão logística como a regressão logística multinomial e ordinal). Regressão logística é popular entre casos de uso – como análise de crédito e propensão a responder/comprar.
Last mas não menos importante, kNN (para “k Vizinhos mais próximos”) também é freqüentemente usado para problemas de classificação. kNN é um algoritmo simples que armazena todos os casos disponíveis e classifica novos casos com base em uma medida de similaridade (por exemplo, funções de distância). Tem sido usado na estimativa estatística e reconhecimento de padrões já no início dos anos 70 como uma técnica não paramétrica: