Top 6 Machine Learning Projects To Inspire Your Portfolio

Tekoälyn (AI) kasvu on innoittanut yhä useampia ohjelmistoinsinöörejä, datatieteilijöitä ja muita ammattilaisia tutkimaan mahdollisuutta uraan koneoppimisen alalla. Joillakin vasta-alkajilla on kuitenkin taipumus keskittyä liikaa teoriaan ja liian vähän käytännön sovelluksiin. Jos aiot menestyä, sinun on aloitettava koneoppimisprojektien rakentaminen mieluummin ennemmin kuin myöhemmin. tarvitset koneoppimisprojekti-ideoita portfoliosi parantamiseksi.

Voi olla vaikea tietää, mistä aloittaa, joten on aina hyvä hakea opastusta ja inspiraatiota muilta. Tässä postauksessa jaamme todellisia esimerkkejä koneoppimisprojekteista, jotka auttavat sinua ymmärtämään, miltä valmiin projektin pitäisi näyttää. Annamme myös käyttökelpoisia vinkkejä omien huomiota herättävien koneoppimisprojektien luomiseen.

Jos etsit kattavampaa tietoa koneoppimisen uravaihtoehdoista, tutustu oppaistoihimme, jotka käsittelevät, miten tulla datatieteilijäksi ja miten tulla data-insinööriksi.

Twiittien tunnistaminen Twitterissä luonnollisen kielen prosessoinnin avulla (aloittelijalle)

Sosiaalisessa mediassa käytetystä vihapuheesta ja valheellisesta uutisoinnista on tullut digitaalisen aikakauden maailmanlaajuisia ilmiöitä. Vaikka loukkaavat viestit ovat ongelma, vielä pahempaa on, kun ne ovat epätarkkoja tai ne liitetään virheellisesti ihmisiin väärien profiilien kautta.

(Lähde: Towards Data Science)

Koneoppimishankkeet voivat auttaa. Luonnollisen kielen käsittelyn (NLP) suosittu sovellus on sentimenttianalyysi. Sen avulla voidaan sekunneissa skannata tuhansia tekstidokumentteja tiettyjen suodattimien varalta. Esimerkiksi Twitter voi käsitellä viestejä rasististen tai seksististen huomautusten varalta ja erottaa nämä twiitit muista.

Eugene Aiken toteutti projektin, jossa analysoitiin kahden henkilön viestejä ja määritettiin todennäköisyys sille, että tietty twiitti oli peräisin yhdeltä tietyltä käyttäjältä. Tätä varten hän käytti kahden tunnetun poliittisen kilpailijan twiittejä: Donald Trumpin ja Hillary Clintonin.

Työhön sisältyi useita vaiheita:

Kaivaa heidän twiittinsä
Johda ne luonnollisen kielen prosessorin läpi
Luokittele ne koneoppimisalgoritmilla
Käytä predict-proba-menetelmää todennäköisyyden määrittämiseksi

Tulosten avulla Eugene pystyi tunnistamaan, mitkä twiitit olivat todennäköisimmin ja mitkä vähiten todennäköisesti Donald Trumpilta. Samaa prosessia voidaan käyttää analysoimaan kenen tahansa twiittejä, mukaan lukien ystävien tai perheenjäsenten twiittejä.

Voit tutustua tähän koneoppimisprojektiin tarkemmin täältä ja ladata datasarjan täältä.

Huijausten löytäminen epätasapainoista dataa käsitellessä (välivaihe)

Mikäli maailma siirtyy kohti käteisvapaata, pilvipohjaista todellisuutta, pankkialaan kohdistuu suurempi uhka kuin koskaan. Luottokorttipetosten maailmanlaajuisten kustannusten odotetaan nousevan yli 32 miljardiin dollariin vuoteen 2020 mennessä.

Vaikka se on suuri ongelma, petosten osuus on vain pieni murto-osa päivittäin tapahtuvien maksutapahtumien kokonaismäärästä. Tästä aiheutuu toinenkin ongelma: epätasapainoiset tiedot.

Koneoppimisessa petoksia pidetään luokitteluongelmana, ja kun kyseessä on epätasapainoinen data, se tarkoittaa, että ennustettava asia on vähemmistössä. Tämän seurauksena ennustemallilla on usein vaikeuksia tuottaa datasta todellista liiketoiminnallista arvoa, ja se voi joskus mennä pieleen.

(Lähde: Towards Data Science)

Rafael Pierre kertoo, miten Towards Data Science -tiimi toteutti projektin tämän ongelman ratkaisemiseksi. Työskennellessään erittäin epätasapainoisen datajoukon kanssa, jossa oli 492 petosta 284 807 transaktiosta, he toteuttivat kolme erilaista strategiaa:

Oversampling
Undersampling
Yhdistelmälähestymistapa

Kaikkien tekniikoiden hyvät puolet löytyivät yhdistelmälähestymistavasta, joka löysi herkullisen pisteen tarkkuuden (precision) ja muistutuksen (recall) väliltä, ja se tarjosi tehokkaasti suuren tarkkuuden käsitellessään epätasapainoisia datajoukotietoaineistoja.

Tästä koneoppimishankkeesta voit lukea lisää täältä.

Catching Crooks on the Hook Using Geo-Mapping and Cloud Computing (Advanced)

Laittomat salametsästäjät uhkaavat valtavasti merielämää kaikkialla maailmassa. Monien vuosien ajan oli käytännössä mahdotonta seurata jokaisen merellä liikkuvan veneen toimintaa. Nykyään tekoälyn, paikkatietokartoituksen ja pilvilaskennan edistysaskeleet ovat yhdistäneet voimansa loistavan koneoppimisprojekti-idean toteuttamiseksi: Global Fishing Watch.

(Lähde: Unsplash)

Miten koneoppiminen tarkalleen ottaen auttaa Global Fishing Watchia tunnistamaan laitonta kalastustoimintaa merillämme? Tähän meneillään olevaan hankkeeseen kuuluu kolme päävaihetta:

Tietojen kerääminen – Useimmilla suurilla aluksilla on käytössä GPS:n kaltainen laite, jota kutsutaan automaattiseksi tunnistusjärjestelmäksi (AIS) ja joka lähettää niiden sijainnin. Vaikka monilla kalastusaluksilla ei ole AIS-järjestelmää, ne, joilla on, vastaavat noin 80 prosentista maailmanlaajuisesta kalastuksesta avomerellä. Kun AIS-laitteita seurataan satelliittien avulla, alusten liikkeitä voidaan seurata myös syrjäisillä alueilla.
Käsittely – Global Fishing Watch käyttää neuroverkkoja tietojen käsittelyyn ja kuvioiden löytämiseen suurista tietokokonaisuuksista. Tämä käsittää noin 60 miljoonaa datapistettä yli 300 000 alukselta – päivittäin! Kalastusasiantuntijoiden avulla algoritmi on oppinut luokittelemaan nämä alukset useiden tekijöiden perusteella, kuten esim:
- Tyyppi – purje-, rahti-, kalastusalukset
- Kalastusvälineet – trooli, pitkäsiima, kurenuotat
- Kalastuskäyttäytyminen – missä se on, milloin se on aktiivinen
Tulosten jakaminen – Nämä tiedot alusten seurannasta ovat julkisesti saatavilla. Kuka tahansa voi käydä verkkosivustolla seuraamassa kaupallisten kalastusalusten liikkeitä reaaliajassa, seurata niitä interaktiivisella kartalla tai ladata tietoja. Ihmiset voivat jopa luoda lämpökarttoja tarkastellakseen kalastustoiminnan malleja tai tarkastella tiettyjen alusten jälkiä merensuojelualueilla.

Tästä koneoppimishankkeesta voit lukea lisää täältä.

Uber Helpful Customer Support Using Deep Learning (Advanced)

Yhtenä teknologisen disruptioinnin malliesimerkkinä Uber aikoo pysyä mukana. Koska kyytien määrä on vuosittain miljardeja, kyytien jakamissovellus tarvitsee loistavan tukijärjestelmän, joka ratkaisee asiakkaiden ongelmat mahdollisimman nopeasti.

(Lähde: Uber)

Uber lähti liikkeelle parantaakseen asiakastukihenkilöidensä tehokkuutta luomalla ”inhimillisen” malliarkkitehtuurin, jota kutsutaan nimellä Customer Obsession Ticket Assistant, eli COTA.

Testaamalla kahta versiota COTA:sta Uberin tiimi käytti syväoppimista selvittääkseen, miten se vaikutti lippujen käsittelyaikaan, asiakastyytyväisyyteen ja tuloihin. Se on loistava malli syväoppimishankkeille, joissa yhdistyvät fiksu tekninen arkkitehtuuri ja ihmisten panos, ja se toivottavasti antaa sinulle muitakin syväoppimishankeideoita.

Tästä koneoppimisprojektista voit lukea lisää täältä.

Barbie With Brains Using Deep Learning Algorithms (Advanced)

Moderneilla nukkeilla, jotka osaavat ”puhua”, on tärkeä rooli pienten lasten mielen muokkaamisessa. Tavallisilla nukeilla on kuitenkin tyypillisesti rajallinen määrä lauseita, jotka eivät korreloi sen kanssa, mitä lapsi sanoo.

Mutta entä jos nukke ymmärtäisi kysymyksiä? Entä jos nukke osaisi antaa loogisia vastauksia?

(Lähde: ToyTalk)

Hello Barbie on jännittävä osoitus koneoppimisen ja tekoälyn voimasta. NLP:n ja jonkin verran edistyneen äänianalytiikan avulla Barbie voi olla vuorovaikutuksessa loogisessa keskustelussa. Hänen kaulakorussaan oleva mikrofoni tallentaa kaiken puhutun ja lähettää sen sitten ToyTalkin palvelimille, jossa se analysoidaan.

Käytettävissä on yli 8 000 riviä dialogia, ja palvelimet lähettävät sopivimman vastauksen takaisin sekunnissa, jotta Barbie voi vastata. Pidä sitä toisena arkkitehtuurina, joka lisää syväoppimisprojekti-ideoiden aarreaittaasi.

Tästä koneoppimisprojektista voit lukea lisää täältä.

Netflixin taideteosten personointi tekoälyn avulla (edistynyt)

Netflix on nykyään viihteen hallitseva voima, ja yhtiö ymmärtää, että eri ihmisillä on erilainen maku. Joskus ihmiset syyllistyvät siihen, että he arvioivat ohjelmia tai elokuvia niiden kuvien perusteella, joten he eivät ehkä koskaan tutustu tiettyihin ohjelmiin. Netflix ei alistu, vaan pyrkii saamaan enemmän ihmisiä katsomaan ohjelmiaan.

(Lähde: Unsplash)

Kun vierailet Netflixissä, näet toisinaan samoista ohjelmista erilaisia kuvituksia. Tämä on koneoppimista työssään. Netflix käyttää konvolutiivista neuroverkkoa, joka analysoi visuaalista kuvamateriaalia. Yhtiö selittää, että se luottaa myös ”kontekstuaalisiin rosvoihin”, jotka työskentelevät jatkuvasti määrittääkseen, mikä taideteos saa paremman sitoutumisen.

Ajan myötä, kun käytät Netflixiä enemmän, se alkaa ymmärtää, mistä ohjelmista pidät, mutta myös minkälaisesta taideteoksesta! Jos olet esimerkiksi katsonut useita Uma Thurmanin tähdittämiä elokuvia, näet todennäköisesti Pulp Fiction-taidetta, jossa näyttelijä on mukana, etkä näyttelijätovereitasi John Travolttaa tai Samuel L. Jacksonia.

Lisätietoa tästä koneoppimisprojektista saat täältä.

Suhteessa: 6 Complete Data Science Projects

How to Generate Your Own Machine Learning Project Ideas

Jos olet jo oppimassa koneoppimisinsinööriksi, saatat olla valmis tarttumaan toimeen. Jos et ole, tässä on muutamia vaiheita, joiden avulla pääset liikkeelle.

Poimi idea, joka innostaa sinua

Käynnistääksesi homman käyntiin sinun on ideoitava koneoppimisen projekti-ideoita. Mieti kiinnostuksen kohteitasi ja etsi niiden ympärille korkean tason konsepteja. Valitse toteuttamiskelpoisin idea ja vakiinnuta se sitten kirjallisella ehdotuksella, joka toimii suunnitelmana, jota voit tarkistaa koko projektin ajan.

Related: 5 Epätraditional Industries That Are Leveraging AI

Avoid Going Out of Scope

Jos kyseessä on ensimmäinen projektisi, sinun tulisi taistella halua ylittää projektin laajuus. Keskity yksinkertaisiin koneoppimisprojekteihin. Keskittymällä pieneen ongelmaan ja tutkimalla suurta, merkityksellistä tietoaineistoa projektisi tuottaa todennäköisemmin positiivista tuottoa sijoituksellesi.

Testaa hypoteesisi

Erityisesti puhuttaessa aloittelijoille suunnatuista helpoista koneoppimisprojekteista tärkeintä on ajatella oivallusten tuottamista projektistasi. Älä huolehdi vielä näiden oivallusten perusteella toimimisesta. Mallinna hypoteesisi ja testaa se. Python on helpoin kieli aloittelijoille, ja suosittelemme käyttämään sitä testauksen tekemiseen.

Tulosten toteuttaminen

Kun olet saavuttanut kaikki halutut tulokset, voit ryhtyä toteuttamaan projektiasi. Tässä vaiheessa on muutamia vaiheita:

Luo API (sovellusohjelmointirajapinta) – Tämän avulla voit integroida koneoppimisen oivalluksesi tuotteeseen.
Tallenna tulokset yhteen tietokantaan – Kun kokoat kaiken yhteen, voit helpommin hyödyntää tuloksia.
Upota koodi – Kun aikaa on vähän, koodin upottaminen on nopeampaa kuin API.

Korjaa ja opi

Kun olet saanut projektin valmiiksi, arvioi tulokset. Mieti, mitä tapahtui ja miksi. Mitä olisit voinut tehdä toisin? Ajan myötä, kun saat kokemusta, voit oppia omista virheistäsi.

Vinkkejä koneoppimisprojekteihin aloittelijoille

Jopa yksinkertaisetkin koneoppimisprojektit on rakennettava vankalle tietopohjalle, jotta niillä olisi todelliset mahdollisuudet onnistua. Lisäksi kilpailutilanne tekee aloittelijoille vaikeaksi erottua joukosta.

Tässä on muutama vinkki, joilla saat koneoppimisprojektisi loistamaan.

Tutustu koneoppimisen yleisiin sovelluksiin

Laaja-alaisesti koneoppimista on kolmea perustyyppiä:

Valvottu oppiminen analysoi historiallista dataa ennustaakseen uusia tuloksia. Esimerkiksi kiinteistöjen hintojen ennustaminen.
Epävalvottu oppiminen etsii datan malleja tilastollisen analyysin avulla. Esimerkiksi asiakassegmenttien tunnistaminen yrityksen myyntitiedoista.
Vahvistava oppiminen toimii dynaamisella mallilla, joka käyttää kokeiluja ja virheitä suorituskyvyn jatkuvaan parantamiseen. Esimerkiksi osakekauppa.

Kun ymmärrät näitä sovelluksia paremmin, osaat soveltaa koneoppimista ongelmaasi.

Älä aliarvioi datan esikäsittelyä ja puhdistusta

Kohinainen data voi vääristää tuloksiasi. Siksi sinun tulisi pyrkiä käyttämään datan esikäsittelyä ja datan puhdistusta säännöllisesti. Yksinkertaisesti sanottuna kyse on siitä, että otat datasi ja teet siitä helpommin ymmärrettävää. Siistimällä asioita ja syöttämällä puuttuvat tiedot varmistat, että mallisi ovat mahdollisimman tarkkoja. Jos koneoppimishankkeissasi on datan laatuun liittyviä ongelmia, edellä linkitetyn artikkelin pitäisi auttaa datan käsittelyn perusteissa koneoppimisen hankeideoiden kanssa.

Koneoppiminen on joukkuepeli

Jopa Neo tarvitsi ystäviä. Kun kehität koneoppimisprojekteja, joudut työskentelemään muiden ihmisten kanssa, joista monilla ei ole samanlaista ymmärrystä tekoälystä ja ohjelmistoista kuin sinulla.

Sinun on luotettava muihin ihmisiin ja oltava myös rehellinen mallisi suhteen. Viime kädessä, kun työskentelet koneoppimisprojektien parissa, pyri avoimuuteen ja avoimeen viestintään, jotta projektisi sujuu sujuvasti.

Keskity todellisen maailman ongelmien ratkaisemiseen

Koneoppimisen käyttäminen hauskoihin sovelluksiin on ihan hyvä juttu, mutta jos tähtäimessäsi on saada työpaikka koneoppimisinsinöörinä, keskity helpottaaksesi kipupistettä, jota monet ihmiset kokevat. Mieti, miten projektisi tarjoaa lisäarvoa asiakkaille. Tutkimalla reaalimaailman ongelmia voit tehdä projektistasi sellaisen, jota maailma haluaa ja tarvitsee. Älä keksi syväoppimisprojekteja vain esitelläksesi taitojasi – luo mielekästä vaikutusta millä tahansa teknologialla. Vaikutus, ei teknologia, on se, millä on todellista merkitystä.

Pelaa vahvuuksiesi mukaan

Jos olet uusi koneoppimisen alalla eikä sinulla ole paljon kokemusta, voi olla hieman pelottavaa kohdata veteraanikoodaajia ja ohjelmistosuunnittelijoita. Tässä tapauksessa koettu heikkoutesi voi olla vahvuutesi. Voit tukeutua taustaasi ja aiempaan tietämykseesi eri toimialoista luodaksesi ainutlaatuisia koneoppimisprojekteja, joita monet muut eivät ehkä edes ajattele. Voit luoda koneoppimishankeideoita omasta näkökulmastasi myös tarkastelemalla avoimia tietokokonaisuuksia.

Koneoppiminen voi tehdä maailmasta inhimillisemmän

Koneoppimisen ala jatkaa kasvuaan vielä vuosia. Vaikka jotkut näkevät niin sanotun ”robottien nousun” merkitsevän henkilökohtaisen kosketuksen loppumista liiketoiminnassa, todellisuus on päinvastainen. On niin monia loistavia koneoppimishankeideoita, jotka itse asiassa auttavat yrityksiä tarjoamaan parempaa palvelua ja inhimillistävät tehokkaasti brändejä tekemällä niistä paremmin kohderyhmänsä kiinnostuksen kohteita vastaavia.

Ei ole helppoa kehittää ensimmäisiä koneoppimisen projekti-ideoita. Oppimalla muilta voit luoda jotain hienoa. Koneoppimiseen liittyvillä hankkeilla voi olla dramaattisia vaikutuksia niinkin erilaisilla ja tärkeillä aloilla kuin ihmisten terveys ja talous: koneoppimiseen liittyvät hankkeet voivat auttaa edistämään ymmärrystämme itsestämme ja maailmastamme.

Springboardin Machine Learning Engineering Career Track, joka on ensimmäinen laatuaan työpaikkatakuulla, keskittyy projektioppimiseen. Lue lisää.