Clasificarea este o abordare de învățare automată supravegheată, în care algoritmul învață din datele de intrare care îi sunt furnizate – și apoi folosește această învățare pentru a clasifica noile observații.
Cu alte cuvinte, setul de date de instruire este utilizat pentru a obține condiții limită mai bune care pot fi folosite pentru a determina fiecare clasă țintă; odată ce aceste condiții limită sunt determinate, următoarea sarcină este de a prezice clasa țintă.
Clasificatorii binari lucrează cu doar două clase sau rezultate posibile (exemplu: sentiment pozitiv sau negativ; dacă creditorul va plăti sau nu împrumutul; etc.), iar clasificatorii multiclasă lucrează cu clase multiple (exemplu: cărei țări îi aparține un steag, dacă o imagine este un măr, o banană sau o portocală; etc.). Multiclasa presupune că fiecare eșantion este atribuit unei singure etichete.
Arborii de decizie sunt, în general, simplu de înțeles și de vizualizat, necesitând puțină pregătire a datelor. De asemenea, această metodă poate gestiona atât date numerice, cât și categorice. Pe de altă parte, arborii complecși nu generalizează bine („supraadaptare”), iar arborii de decizie pot fi oarecum instabili, deoarece mici variații în date ar putea duce la generarea unui arbore complet diferit.
O metodă de clasificare care derivă din arborii de decizie este Random Forest, în esență un „metaestimator” care potrivește un număr de arbori de decizie pe diferite subeșantioane de seturi de date și utilizează media pentru a îmbunătăți precizia predictivă a modelului și controlează supraadaptarea. Dimensiunea subeșantioanelor este aceeași cu dimensiunea eșantionului inițial de intrare – dar eșantioanele sunt extrase cu înlocuire.
Random Forests tind să prezinte un grad mai mare de robustețe la supraajustare (>robustețe la zgomotul din date), cu un timp de execuție eficient chiar și în seturi de date mai mari. Totuși, ele sunt mai sensibile la seturi de date dezechilibrate, fiind, de asemenea, puțin mai complexe de interpretat și necesitând mai multe resurse de calcul.
Un alt clasificator popular în ML este Regresia Logistică – unde probabilitățile care descriu posibilele rezultate ale unui singur proces sunt modelate folosind o funcție logistică (metodă de clasificare în ciuda numelui):
Iată cum arată ecuația logistică:
Să luăm e (exponentul) de ambele părți ale ecuației rezultă:
Regresia logistică este cea mai utilă pentru a înțelege influența mai multor variabile independente asupra unei singure variabile de rezultat. Este axată pe clasificarea binară (pentru probleme cu clase multiple, se utilizează extensii ale regresiei logistice, cum ar fi regresia logistică multinomială și ordinală). Regresia logistică este populară în toate cazurile de utilizare, cum ar fi analiza creditării și propensiunea de a răspunde/cumpăra.
În sfârșit, kNN (pentru „k Nearest Neighbors”) este, de asemenea, adesea utilizat pentru probleme de clasificare. kNN este un algoritm simplu care stochează toate cazurile disponibile și clasifică noile cazuri pe baza unei măsuri de similaritate (de exemplu, funcții de distanță). A fost utilizat în estimarea statistică și recunoașterea modelelor încă de la începutul anilor 1970 ca o tehnică neparametrică:
.