Luokittelu on valvottu koneoppimismenetelmä, jossa algoritmi oppii sille annetusta syötetystä datasta – ja käyttää sitten tätä oppimista uusien havaintojen luokitteluun.
Muilla sanoilla, koulutustietokokonaisuutta käytetään parempien reunaehtojen hankkimiseen, joita voidaan käyttää kunkin kohdeluokan määrittelyyn; kun tällaiset reunaehdot on saatu määriteltyä, seuraavana tehtävänä on ennustaa kohdeluokka.
Binääriluokittelijat työskentelevät vain kahden luokan tai mahdollisen lopputuloksen kanssa (esimerkki: positiivinen tai negatiivinen tunne; maksaako lainanantaja lainan vai ei; jne.), ja moniluokkaiset luokittelijat työskentelevät useiden luokkien kanssa (esimerkki: mihin maahan lippu kuuluu, onko kuva omena vai banaani vai appelsiini; jne.). Multiclass-luokittelussa oletetaan, että jokaiselle näytteelle annetaan yksi ja vain yksi etiketti.
Yksi ensimmäisistä suosituista luokittelualgoritmeista koneellisessa oppimisessa oli Naive Bayes, Bayesin teoreeman innoittama todennäköisyysluokittelija (jonka avulla voimme tehdä perusteltuja päätelmiä reaalimaailmassa tapahtuvista tapahtumista perustuen aiempaan tietämykseen havainnoista, jotka saattavat viitata siihen). Nimi (”Naive”) juontaa juurensa siitä, että algoritmi olettaa attribuuttien olevan ehdollisesti riippumattomia.
Algoritmi on yksinkertainen algoritmi toteuttaa, ja se on yleensä kohtuullinen menetelmä luokittelupyrkimysten käynnistämiseksi. Se voidaan helposti skaalata suuremmille tietokokonaisuuksille (vie lineaarisen ajan verrattuna iteratiiviseen approksimaatioon, jota käytetään monissa muuntyyppisissä luokittelijoissa ja joka on kalliimpaa laskentaresurssien kannalta) ja vaatii pienen määrän harjoitusdataa.
Naiivi Bayes voi kuitenkin kärsiä ongelmasta, joka tunnetaan nimellä ”nollatodennäköisyysongelma”, kun ehdollinen todennäköisyys on nolla tietylle attribuutille, jolloin kelvollista ennustetta ei voida antaa. Yksi ratkaisu on hyödyntää tasoitusmenettelyä (esim. Laplace-menetelmä).
Päätöksentekopuiden ymmärtäminen ja havainnollistaminen sujuu yleensä helposti, ja ne vaativat vain vähän datan esivalmistelua. Tällä menetelmällä voidaan myös käsitellä sekä numeerista että kategorista dataa. Toisaalta monimutkaiset puut eivät yleisty hyvin (”ylisovittaminen”), ja päätöspuut voivat olla jossain määrin epävakaita, koska pienetkin vaihtelut datassa saattavat johtaa täysin erilaisen puun tuottamiseen.
Päätöspuista johdettu luokittelumenetelmä on Random Forest, joka on pohjimmiltaan ”meta-estimaattori”, joka sovittaa useita päätöspuita erilaisiin datajoukkojen osaotoksiin ja käyttää keskiarvoja parantaakseen mallin ennustetarkkuutta ja hillitäkseen ylisovittamista. Osaotosten koko on sama kuin alkuperäisen syöttöotoksen koko – mutta otokset poimitaan korvaavasti.
Sattumanvaraisilla metsillä on taipumus osoittaessaan korkeampaa robustisuutta ylisovittamista vastaan (>robustisuus datan kohinaa kohtaan), ja niiden suoritusaika on tehokas myös suuremmissa datajoukoissa. Ne ovat kuitenkin herkempiä epätasapainoisille tietokokonaisuuksille, mutta niiden tulkinta on myös hieman monimutkaisempaa ja ne vaativat enemmän laskentaresursseja.
Toinen suosittu luokittelija ML:ssä on logistinen regressio – jossa yksittäisen kokeen mahdollisia tuloksia kuvaavia todennäköisyyksiä mallinnetaan logistisella funktiolla (luokittelumenetelmä nimestä huolimatta):
Tältä logistinen yhtälö näyttää:
Valitsemalla e (eksponentti) yhtälön molemmille puolille saadaan:
Logistinen regressio on käyttökelpoisin, kun halutaan ymmärtää usean riippumattoman muuttujan vaikutusta yksittäiseen tulosmuuttujaan. Se keskittyy binääriseen luokitteluun (ongelmiin, joissa on useita luokkia, käytetään logistisen regression laajennuksia, kuten multinomiaalista ja ordinaalista logistista regressiota). Logistinen regressio on suosittu useissa käyttötapauksissa, kuten luottoanalyysissä ja reagointi-/ostohalukkuudessa.
Viimeiseksi, mutta ei vähäisimpänä, kNN:ää (lyhenne sanoista ”k Nearest Neighbors”, eli ”k lähintä naapuria”) käytetään myös usein luokitusongelmissa. kNN on yksinkertainen algoritmi, joka tallentaa kaikki saatavilla olevat tapaukset ja luokittelee uudet tapaukset samankaltaisuusmittarin (esim. etäisyysfunktioiden) perusteella. Sitä on käytetty tilastollisessa estimoinnissa ja hahmontunnistuksessa jo 1970-luvun alussa ei-parametrisena tekniikkana: