La clasificación es un enfoque de aprendizaje automático supervisado, en el que el algoritmo aprende de la entrada de datos que se le proporciona – y luego utiliza este aprendizaje para clasificar nuevas observaciones.
En otras palabras, el conjunto de datos de entrenamiento se emplea para obtener mejores condiciones de contorno que se pueden utilizar para determinar cada clase objetivo; una vez que se determinan dichas condiciones de contorno, la siguiente tarea es predecir la clase objetivo.
Los clasificadores binarios trabajan con sólo dos clases o resultados posibles (ejemplo: sentimiento positivo o negativo; si el prestamista pagará el préstamo o no; etc), y los clasificadores multiclase trabajan con múltiples clases (ejemplo: a qué país pertenece una bandera, si una imagen es una manzana o un plátano o una naranja; etc). Los multiclase asumen que cada muestra es asignada a una y sólo una etiqueta.
La regresión logística es más útil para comprender la influencia de varias variables independientes en una única variable de resultado. Se centra en la clasificación binaria (para problemas con múltiples clases, utilizamos extensiones de la regresión logística como la regresión logística multinomial y ordinal). La regresión logística es popular en casos de uso como el análisis de crédito y la propensión a responder/comprar.
Por último, pero no por ello menos importante, kNN (por «k Nearest Neighbors») también se utiliza a menudo para problemas de clasificación. kNN es un algoritmo sencillo que almacena todos los casos disponibles y clasifica los nuevos casos basándose en una medida de similitud (por ejemplo, funciones de distancia). Se ha utilizado en la estimación estadística y el reconocimiento de patrones ya a principios de la década de 1970 como técnica no paramétrica:
.