6 nejlepších projektů strojového učení pro inspiraci vašeho portfolia

Rozvoj umělé inteligence (AI) inspiroval stále více softwarových inženýrů, datových vědců a dalších odborníků k tomu, aby prozkoumali možnost kariéry v oblasti strojového učení. Někteří nováčci však mají tendenci zaměřovat se příliš na teorii a málo na praktické využití. Pokud chcete uspět, musíte začít vytvářet projekty strojového učení raději dříve než později.’ll need machine learning project ideas to improve your portfolio.

Může být těžké vědět, kde začít, proto je vždy dobré hledat radu a inspiraci u ostatních. V tomto příspěvku se podělíme o reálné příklady projektů strojového učení, které vám pomohou pochopit, jak by měl dokončený projekt vypadat. Poskytneme vám také praktické tipy pro vytváření vlastních projektů strojového učení, které upoutají pozornost.

Pokud hledáte komplexnější pohled na možnosti kariéry v oblasti strojového učení, podívejte se na naše průvodce, jak se stát datovým vědcem a jak se stát datovým inženýrem.

Identifikace Twits na Twitteru pomocí zpracování přirozeného jazyka (začátečník)

Nenávistné projevy na sociálních sítích a falešné zprávy se v digitálním věku staly celosvětovým fenoménem. Urážlivé příspěvky jsou sice problém, ale ještě horší je, když jsou nepřesné nebo nesprávně připsané lidem prostřednictvím falešných profilů.

(Zdroj: Towards Data Science)

Pomoci mohou projekty strojového učení. Oblíbenou aplikací zpracování přirozeného jazyka (NLP) je analýza sentimentu. Ta umožňuje během několika sekund prohledat tisíce textových dokumentů na základě určitých filtrů. Například Twitter může zpracovat příspěvky na rasistické nebo sexistické poznámky a oddělit tyto tweety od ostatních.

Eugene Aiken podnikl projekt, jehož cílem bylo analyzovat příspěvky dvou osob a určit pravděpodobnost, že konkrétní tweet pochází od jednoho konkrétního uživatele. K tomu použil tweety dvou známých politických rivalů: Donalda Trumpa a Hillary Clintonové.

Tento úkol zahrnoval několik fází:

Scrapovat jejich tweety
Prohnat je procesorem přirozeného jazyka
Klasifikovat je pomocí algoritmu strojového učení
Použít metodu predict-proba k určení pravděpodobnosti

S výsledky byl Eugene schopen určit, které tweety jsou s největší a nejmenší pravděpodobností od Donalda Trumpa. Stejný postup lze použít k analýze tweetů od kohokoli, včetně vašich přátel nebo rodiny.

Další informace o tomto projektu strojového učení se dozvíte zde a soubor dat si můžete stáhnout zde.

Nalézání podvodníků při řešení nevyvážených dat (Intermediate)

S tím, jak svět směřuje k bezhotovostní realitě založené na cloudu, je bankovní sektor ohrožen více než kdy jindy. Očekává se, že celosvětové náklady na podvody s kreditními kartami se do roku 2020 vyšplhají nad 32 miliard dolarů.

Ačkoli se jedná o závažný problém, podvody představují pouze nepatrný zlomek celkového počtu transakcí, které se každý den uskuteční. Z toho vyplývá další problém: nevyvážené údaje.

Ve strojovém učení se na podvody pohlíží jako na klasifikační problém, a když máte co do činění s nevyváženými daty, znamená to, že problém, který je třeba předpovědět, je v menšině. V důsledku toho bude mít predikční model často problém vytvořit z dat skutečnou obchodní hodnotu a někdy se může mýlit.

(Zdroj: Towards Data Science)

Rafael Pierre vysvětluje, jak tým Towards Data Science provedl projekt na řešení tohoto problému. Pracovali s vysoce nevyváženým souborem dat, který obsahoval 492 podvodů z 284 807 transakcí, a zavedli tři různé strategie:

Převzorkování
Převzorkování
Kombinovaný přístup

Když má každá z technik své přednosti, kombinovaný přístup se trefil do zlatého středu mezi přesností a odvolávkou a efektivně nabízí vysokou úroveň přesnosti při práci s nevyváženými soubory dat.

Další informace o tomto projektu strojového učení najdete zde.

Catching Crooks on the Hook Using Geo-Mapping and Cloud Computing (Advanced)

Zranitelný mořský život je po celém světě nesmírně ohrožen nelegálními pytláky. Po mnoho let bylo prakticky nemožné sledovat činnost každé lodi na moři. V dnešní době se spojil pokrok v oblasti umělé inteligence, geomapování a cloud computingu a podařilo se realizovat geniální nápad na projekt strojového učení:

(Zdroj: Unsplash)

Jak přesně pomáhá strojové učení organizaci Global Fishing Watch identifikovat nelegální rybolovnou činnost v našich oceánech? Tento probíhající projekt zahrnuje tři hlavní fáze:

Sběr dat – Většina velkých lodí používá zařízení podobné GPS známé jako automatický identifikační systém (AIS), které vysílá jejich polohu. Ačkoli mnoho rybářských lodí nemá systém AIS, ty, které jej mají, představují přibližně 80 % celosvětového rybolovu na volném moři. Sledováním zařízení AIS pomocí satelitů je možné monitorovat pohyb lodí, a to i v odlehlých oblastech.
Zpracování – Global Fishing Watch využívá neuronové sítě ke zpracování informací a hledání vzorů ve velkých souborech dat. Ten zahrnuje přibližně 60 milionů datových bodů z více než 300 000 plavidel – denně! S pomocí odborníků na rybolov se algoritmus naučil klasifikovat tato plavidla podle řady faktorů, jako např:
- Typ – plachetní, nákladní, rybářské
- Rybářské vybavení – vlečné sítě, dlouhé lovné šňůry, košelkové nevody
- Rybářské chování – kde se nachází, kdy je aktivní
Sdílení výsledků – Tyto informace o sledování plavidel jsou veřejně dostupné. Kdokoli může navštívit webové stránky a sledovat pohyb komerčních rybářských plavidel v reálném čase, sledovat je na interaktivní mapě nebo si údaje stáhnout. Lidé mohou dokonce vytvářet tepelné mapy a kontrolovat vzorce rybolovné činnosti nebo si prohlížet stopy konkrétních plavidel v oblastech chráněných mořem.

Další informace o tomto projektu strojového učení najdete zde.

Uber pomáhá zákaznické podpoře pomocí hlubokého učení (pokročilé)

Jako jeden z ukázkových příkladů technologického narušení hodlá Uber zůstat. Vzhledem k miliardám jízd ročně potřebuje aplikace pro sdílení jízd fantastický systém podpory, který by co nejrychleji vyřešil problémy zákazníků.

(Zdroj: Uber)

Uber se rozhodl zvýšit efektivitu svých zástupců zákaznické podpory vytvořením architektury modelu „člověk ve smyčce“, který se nazývá Customer Obsession Ticket Assistant neboli COTA.

Děleným testováním dvou verzí systému COTA tým společnosti Uber pomocí hloubkového učení zjistil, jaký vliv má na dobu vyřizování lístků, spokojenost zákazníků a příjmy. Je to skvělý model pro projekty hlubokého učení, které kombinují chytrou technickou architekturu s lidským vstupem, a snad vám poskytne další nápady na projekty hlubokého učení.

Další informace o tomto projektu strojového učení se dozvíte zde.

Barbie s mozkem pomocí algoritmů hlubokého učení (pro pokročilé)

Moderní panenky, které umí „mluvit“, hrají důležitou roli při formování malé mysli dětí. Standardní panenky však obvykle mají omezený soubor frází, které nemají žádnou souvislost s tím, co dítě říká.

Ale co kdyby panenka rozuměla otázkám? Co kdyby panenka uměla dávat logické odpovědi?“

(Zdroj: ToyTalk)

Hello Barbie je vzrušující ukázkou síly strojového učení a umělé inteligence. Prostřednictvím NLP a některých pokročilých zvukových analýz dokáže Barbie komunikovat v logické konverzaci. Mikrofon na jejím náhrdelníku zaznamenává vše, co je řečeno, a pak to přenáší na servery ToyTalk, kde se to analyzuje.

K dispozici je více než 8 000 řádků dialogu a servery během sekundy odešlou zpět nejvhodnější odpověď, aby Barbie mohla reagovat. Považujte to za další architekturu, která rozšíří vaši zásobárnu nápadů na projekty hlubokého učení.

Další informace o tomto projektu strojového učení najdete zde.

Personalizace uměleckých děl společnosti Netflix pomocí umělé inteligence (pokročilé)

Netflix je nyní dominantní silou v oblasti zábavy a společnost chápe, že různí lidé mají různý vkus. Někdy se lidé proviní tím, že posuzují pořady nebo filmy podle obrázků, a tak se může stát, že se na některé programy nikdy nepodívají. Aby se Netflix nenechal porazit, snaží se přesvědčit více lidí, aby se na jeho pořady dívali.

(Zdroj: Unsplash)

Když navštívíte Netflix, někdy uvidíte různá umělecká díla ke stejným pořadům. To je strojové učení v praxi. Netflix používá konvoluční neuronovou síť, která analyzuje vizuální zobrazení. Společnost vysvětluje, že se spoléhá také na „kontextové bandity“, kteří neustále pracují na tom, aby určili, která umělecká díla mají lepší záběr.

Časem, když Netflix používáte častěji, začne chápat nejen to, jaké pořady se vám líbí, ale také jaký typ uměleckých děl! Pokud jste například zhlédli několik filmů s Umou Thurman, pravděpodobně se vám zobrazí umělecké dílo Pulp Fiction s touto herečkou namísto hereckých hvězd Johna Travolty nebo Samuela L. Jacksona.

Další informace o tomto projektu strojového učení najdete zde.

Související:

Jak si vygenerovat vlastní nápady na projekty strojového učení

Pokud se již učíte, jak se stát inženýrem strojového učení, možná jste připraveni se do toho pustit. Pokud ne, zde je několik kroků, které vám pomohou dát věci do pohybu.

Vyberte si nápad, který vás nadchne

Na začátek je třeba provést brainstorming nápadů na projekty strojového učení. Přemýšlejte o svých zájmech a snažte se kolem nich vytvořit koncepty na vysoké úrovni. Vyberte nejživotaschopnější nápad a poté jej upevněte písemným návrhem, který slouží jako plán ke kontrole v průběhu projektu.

Související:

Vyhněte se překračování rozsahu projektu

Jestliže se jedná o váš první projekt, měli byste bojovat s nutkáním překračovat rozsah projektu. Zaměřte se na jednoduché projekty strojového učení. Zaměříte-li se na malý problém a prozkoumáte-li velký soubor relevantních dat, je pravděpodobnější, že váš projekt přinese pozitivní návratnost vašich investic.

Testujte své hypotézy

Zejména když mluvíme o jednoduchých projektech strojového učení pro začátečníky, hlavní věcí, na kterou je třeba myslet, je generování poznatků z vašeho projektu. O jednání na základě těchto poznatků se zatím nestarejte. Vymodelujte svou hypotézu a otestujte ji. Python je nejjednodušší jazyk pro začátečníky, a proto vám doporučujeme, abyste k testování použili právě tento jazyk.

Realizace výsledků

Jakmile dosáhnete všech požadovaných výsledků, můžete se věnovat realizaci svého projektu. V této fázi je několik kroků:

Vytvoření API (rozhraní pro programování aplikací) – To vám umožní integrovat vaše poznatky o strojovém učení do produktu.
Zaznamenávejte výsledky v jedné databázi – Tím, že vše shromáždíte dohromady, usnadníte navázání na výsledky.
Vložte kód – Když máte málo času, je vložení kódu rychlejší než rozhraní API.

Revidujte a učte se

Po dokončení projektu vyhodnoťte výsledky. Zamyslete se nad tím, co se stalo a proč. Co jste mohli udělat jinak? Postupem času, jak budete získávat zkušenosti, se budete moci poučit z vlastních chyb.

Tipy pro projekty strojového učení pro začátečníky

I jednoduché projekty strojového učení musí být postaveny na pevných základech znalostí, aby měly reálnou šanci na úspěch. V konkurenčním prostředí je navíc pro nováčky těžké vyniknout.

Související:

Seznamte se s běžnými aplikacemi strojového učení

V obecné rovině existují tři základní typy strojového učení:

Supervised learning analyzuje historická data s cílem předpovědět nové výsledky. Například předpovídání cen nemovitostí.
Učení bez dohledu hledá vzory dat pomocí statistické analýzy. Například identifikace segmentů zákazníků v rámci prodejních dat vaší společnosti.
Učení s posilováním pracuje s dynamickým modelem, který využívá pokusů a omylů k neustálému zlepšování výkonu. Například obchodování s akciemi.

Pokud lépe porozumíte těmto aplikacím, budete vědět, jak strojové učení aplikovat na váš problém.

Nepodceňujte předběžné zpracování a čištění dat

Hlučná data mohou zkreslit vaše výsledky. Proto byste se měli snažit pravidelně používat předzpracování a čištění dat. Zjednodušeně řečeno jde o to, vzít data a usnadnit jejich pochopení. Úklidem a zadáním chybějících dat zajistíte, že vaše modely budou co nejpřesnější. Pokud mají vaše projekty strojového učení problémy s kvalitou dat, měl by vám se základy úpravy dat pomoci předchozí odkazovaný článek s nápady na projekty strojového učení.

Strojové učení je týmová hra

I Neo potřeboval přátele. Při vývoji projektů strojového učení budete muset spolupracovat s dalšími lidmi, z nichž mnozí nebudou mít stejné znalosti umělé inteligence a softwaru jako vy

Musíte ostatním lidem důvěřovat a také být upřímní ohledně svého modelu. Nakonec, když pracujete na projektech strojového učení, snažte se o transparentnost a otevřenou komunikaci, aby váš projekt mohl probíhat hladce.

Zaměřte se na řešení reálných problémů

Je dobře, že používáte strojové učení pro zábavné aplikace, ale pokud máte zájem získat práci jako inženýr strojového učení, měli byste se zaměřit na zmírnění bolesti, kterou pociťuje mnoho lidí. Zamyslete se nad tím, jak váš projekt nabídne hodnotu zákazníkům. Zkoumáním skutečných problémů můžete svůj projekt vyzdvihnout jako projekt, který svět chce a potřebuje. Nevymýšlejte projekty hlubokého učení jen proto, abyste se pochlubili svými dovednostmi – vytvořte smysluplný dopad s jakoukoli technologií. Skutečně důležitý je dopad, a ne technologie.

Hrajte na své silné stránky

Jestliže jste v oblasti strojového učení nováčkem a nemáte mnoho zkušeností, může být trochu skličující postavit se proti zkušenému programátorovi a softwarovému inženýrovi. V tomto případě může být vaše domnělá slabina silnou stránkou. Můžete se opřít o své zázemí a předchozí znalosti o různých odvětvích a vytvořit jedinečné projekty strojového učení, které mnoho jiných lidí možná ani nenapadnou. Nápady na projekty strojového učení můžete generovat i z vlastního pohledu, a to prostřednictvím otevřených datových sad.

Strojové učení může učinit svět lidštějším

Odvětví strojového učení bude v příštích letech dále růst. Zatímco někteří lidé považují takzvaný „nástup robotů“ za konec osobního přístupu v podnikání, skutečnost je zcela opačná. Existuje tolik skvělých nápadů na projekty strojového učení, které ve skutečnosti pomáhají firmám nabízet lepší služby a účinně zlidšťují značky tím, že lépe odpovídají zájmům jejich cílové skupiny.

Vyvinout první nápady na projekty strojového učení není snadné. Učením se od ostatních můžete vytvořit něco skvělého. Projekty strojového učení mohou mít dramatický dopad na tak různorodé a důležité oblasti, jako je lidské zdraví a ekonomika: projekty strojového učení mohou přispět k lepšímu pochopení nás samých a našeho světa.

Kariérní kurz Machine Learning Engineering společnosti Springboard, první svého druhu se zárukou zaměstnání, se zaměřuje na projektové učení. Zjistěte více