Maskinlæring i Computer Vision er et koblet gennembrud, der fortsat har vakt nysgerrighed hos startup-stiftere, dataloger og ingeniører i årtier. Den er rettet mod forskellige anvendelsesområder for at løse kritiske problemer i det virkelige liv, idet den baserer sin algoritme på det menneskelige biologiske syn.
Disse problemer i det virkelige liv holder os på afstand, da den sigter mod at levere løsninger ved hjælp af computervision. Computervision alene er imidlertid allerede et komplekst område. For eksempel er det allerede en stor udfordring at vide med sikkerhed, hvilke algoritmer der skal anvendes, og det samme gælder det at finde de rigtige computer vision-ressourcer.
For at besvare alle disse udfordringer skal vi først have en introduktion til computer vision. Lad os derefter forstå forholdet mellem computervision og maskinlæring.
Hvad er computer vision?
Computer vision er processen med at forstå digitale billeder og videoer ved hjælp af computere. Den søger at automatisere opgaver, som det menneskelige syn kan udføre. Det omfatter metoder til at erhverve, behandle, analysere og forstå digitale billeder og udtrække data fra den virkelige verden for at fremstille information. Det har også underområder som f.eks. objektgenkendelse, videosporing og bevægelsesvurdering og har således anvendelser inden for medicin, navigation og objektmodellering.
For at sige det enkelt, arbejder computervision med en enhed, der bruger et kamera til at tage billeder eller videoer og derefter foretage analyser. Målet med computer vision er at forstå indholdet af digitale billeder og videoer. Endvidere at udtrække noget nyttigt og meningsfuldt fra disse billeder og videoer for at løse forskellige problemer. Sådanne eksempler er systemer, der kan kontrollere, om der er mad i køleskabet, kontrollere prydplanters sundhedstilstand og komplekse processer som f.eks. katastrofeoprettelsesoperationer.
Hvad er maskinlæring?
Maskinlæring er studiet af algoritmer og statistiske modeller, som er en delmængde af kunstig intelligens. Systemer bruger det til at udføre en opgave uden eksplicitte instruktioner og i stedet forlade sig på mønstre og inferens. Det gælder således for computervision, softwareteknik og mønstergenkendelse.
Maskinlæring udføres af computere med minimal hjælp fra softwareprogrammører. Den bruger data til at træffe beslutninger og gør det muligt at bruge den på interessante måder i en lang række forskellige brancher. Den kan klassificeres som overvåget læring, semi-supervised learning og unsupervised learning.
Lad os fokusere på supervised learning.
Supervised Learning
Supervised learning er en maskinlæringsopgave, der kortlægger hvert inputobjekt til den ønskede outputværdi. Computeren trænes til at associere et objekt med det ønskede output. Der findes en bred vifte af algoritmer til forskellige overvågede indlæringsproblemer.
Anvendelser inden for computervision med maskinlæring vokser eksponentielt i årenes løb, hvor samfundet er den eneste begunstigede. Denne bestræbelse er muliggjort af vores såkaldte helte i teknologisektoren – udviklere og iværksættere, der arbejder sammen og er forelsket i disse teknologiers egenskaber.
Kombinationen af disse to teknologier kræver en dybtgående diskussion.
Forholdet mellem Machine Learning og Computer Vision
Teknologien holder aldrig op med at efterligne den menneskelige hjerne, og derfor vinder AI stor interesse i årtier. For at vise køreplanen for disse gennembrud, lad os diskutere forholdet mellem AI, maskinlæring og computervision. AI er paraplyen for disse områder, maskinlæring er en delmængde af AI, hvor computervision også er en delmængde af maskinlæring. Computervision kan dog betragtes som en direkte delmængde af AI.
Maskinlæring og computervision er to områder, der er blevet tæt forbundet med hinanden. Maskinlæring har forbedret computervision om genkendelse og sporing. Den tilbyder effektive metoder til opsamling, billedbehandling og objektfokusering, som anvendes i computervision. Til gengæld har computervision udvidet anvendelsesområdet for maskinlæring. Det involverer et digitalt billede eller en digital video, en sensor, en fortolkningsenhed og fortolkningsfasen. Maskinlæring anvendes i computer vision i fortolkningsenheden og fortolkningsfasen.
Relativt set er maskinlæring det bredere område, og det er tydeligt i de algoritmer, der kan anvendes på andre områder. Et eksempel er analysen af en digital optagelse, som foretages ved hjælp af maskinlæringsprincipper. Computer vision beskæftiger sig på den anden side primært med digitale billeder og videoer. Desuden har det relationer inden for informationsteknik, fysik, neurobiologi og signalbehandling.
Den hindring, som udviklere og iværksættere står over for, er den store kløft mellem computervision og biologisk vision. De områder, der er mest nært beslægtet med computervision, er billedbehandling og billedanalyse. Det fortjener imidlertid en anden interessant artikel at nævne dens forhold og forskelle. Også manglen på viden om hovedmålet med maskinlæring i et bestemt projekt er en enorm forstyrrelse blandt iværksættere.
Opgaver, der involverer Computer Vision
Til Full Scale er vores team besat af vores kunders succes. Vi hjælper dig med at finde computer vision-ingeniører til at hjælpe din virksomhed med typiske opgaver som f.eks. genkendelse og bevægelsesanalyse. Vores pulje af ekspertingeniører inden for maskinlæring er i stand til at bruge en række forskellige metoder til at erhverve, behandle og analysere digitale billeder for at producere korrekte oplysninger. Her er nogle opgaver, der involverer computer vision:
Rekognition i computer vision
Rekognition i computer vision omfatter genkendelse, identifikation og detektion af objekter. Nogle specialiserede opgaver i forbindelse med genkendelse er optisk tegngenkendelse, billedgenkendelse og ansigtsgenkendelse.
Objektgenkendelse – det drejer sig om at finde og identificere objekter i et digitalt billede eller en video. Det anvendes oftest i forbindelse med ansigtsdetektion og -genkendelse. Objektgenkendelse kan gribes an ved hjælp af enten maskinlæring eller deep learning.
Maskinlæringstilgang – objektgenkendelse ved hjælp af maskinlæring kræver, at funktionerne først defineres, før de klassificeres. En almindelig tilgang, der anvender maskinlæring, er scale-invariant feature transform (SIFT). SIFT bruger nøglepunkter af objekter og lagrer dem i en database. Når et billede kategoriseres, kontrollerer SIFT de nøglepunkter i billedet, som matcher dem, der findes i databasen.
Dyb indlæringsmetode – objektgenkendelse ved hjælp af dyb indlæring kræver ikke specifikt definerede funktioner. De almindelige tilgange, der anvender deep learning, er baseret på konvolutionelle neurale netværk. Et konvolutionelt neuralt netværk er en type dybt neuralt netværk, som er et kunstigt neuralt netværk med flere lag mellem input og output. Et kunstigt neuralt netværk er et computersystem, der er inspireret af det biologiske neurale netværk i hjernen. Det bedste eksempel på dette er ImageNet. Det er en visuel database, der er designet til genkendelse af objekter, hvor præstationen siges at være næsten lig menneskers.
Bevægelsesanalyse
Bevægelsesanalyse i computer vision indebærer en digital video, der behandles for at producere information. Simpel behandling kan detektere et objekts bevægelse. Mere kompleks behandling følger et objekt over tid og kan bestemme bevægelsesretningen. Det har anvendelser inden for motion capture, sport og ganganalyse.
Motion capture – omfatter registrering af objekters bevægelse. Der bæres markører i nærheden af leddene for at identificere bevægelsen. Det har anvendelser inden for animation, sport, computervision og ganganalyse. Typisk registreres kun skuespillernes bevægelser, og det visuelle udseende er ikke medtaget.
Ganganalyse – er undersøgelse af bevægelser og musklernes aktivitet ved hjælp af instrumenter. Det indebærer kvantificering og fortolkning af gangmønsteret. Der er behov for flere kameraer forbundet til en computer. Forsøgspersonen bærer markører på forskellige referencepunkter på kroppen. Når forsøgspersonen bevæger sig, beregner computeren hver enkelt markørs bane i tre dimensioner. Det kan anvendes til biomekanik inden for sport.
Anvendelser af computervision ved hjælp af maskinlæring
Rejsen med vores kunder starter med en konsultation, hvor vi finder hjælp og opbygger løsninger på virkelige problemer ved hjælp af computervision. Her er nogle af de applikationer, som vi kan arbejde med, når vores eksperter vurderer de spændende og farlige aspekter af maskinlæring.
Videosporing – er en proces, hvor man lokaliserer et objekt i bevægelse over tid. Objektgenkendelse bruges til at hjælpe med videosporing. Video tracking kan bruges inden for sport. Sport indebærer mange bevægelser, og disse teknologier er ideelle til at spore spillernes bevægelser.
Autonome køretøjer – computervision anvendes i autonome køretøjer som f.eks. en selvkørende bil. Kameraer er placeret på toppen af bilen og giver et 360 graders synsfelt med en rækkevidde på op til 250 meter. Kameraerne hjælper med at finde vognbaner, vurdere vejens krumninger, registrere forhindringer, registrere trafikskilte og meget mere. Computer vision skal gennemføre objektdetektion og -klassificering.
Sport – computer vision anvendes inden for sport til at forbedre udsendelsesoplevelsen, træning af atleter, analyse og fortolkning samt beslutningstagning. Sportsbiomekanik er en kvantitativ undersøgelse og analyse af atleter og sport. For at forbedre udsendelserne kan der tegnes virtuelle markeringer på tværs af banen eller banen. Hvad angår træning af atleter, kan man ved at skabe en skeletmodel af en akrobat og estimere massecentret forbedre form og kropsholdning. Endelig kan man med henblik på sportsanalyse og -fortolkning spore spillere i livekampe, hvilket giver mulighed for oplysninger i realtid.
Computervision anvendes til at indsamle data for at opnå basketballanalyser. Disse analyser hentes ved hjælp af videosporing og objektgenkendelse ved at spore spillernes bevægelser. Der anvendes også bevægelsesanalysemetoder til at hjælpe med at spore bevægelser. Deep learning ved hjælp af convolutional neural networks bruges til at analysere dataene.
Lad os f.eks. tage Second Spectrum – NBA’s officielle trackingpartner – som vi relaterer til vores softwareudviklingsproces. Second Spectrum bruger big data, maskinlæring og computer vision til at levere analyser og til at bygge maskiner, der forstår sporten. Det bruger optiske sporingsdata og fandt ud af, at trepointere og nærgående skud er mere effektive end midterste skud. Det blev også fundet ud af, at de potentielle rebounds er grupperet tæt på kurven. Dette svarer til den vejledte udviklingsproces i Full Scale. Vores pulje af computer vision-eksperter udfører undersøgelser og anbefaler udbredte algoritmer for at opbygge løsninger og til gengæld hjælpe din virksomhed med at opnå indtægter.
Lyt til episode 108 af Startup Hustle Podcast – Computer Vision
Konklusion
Trods skriget om AI, maskinlæring og computer vision stod det klart for os, om end præcist, at computer vision stadig er bagud i forhold til menneskets biologiske vision. Dette er den virkelighed, som både iværksættere og udviklere står over for. Bortset fra det faktum, at det at engagere sig i denne form for venture introducerede tantamount af udgifter, begrænsningerne af generelle læringsalgoritmer og ressourceknaphed.
Men hos Full Scale tror vi på teknologi og innovation, og hvordan disse ting hjælper os med at vokse ind i fremtiden. Vores dedikerede pulje af eksperter inden for Machine Learning og Computer Vision tilbyder løbende støtte til at opnå de systemer og teknologier, du har brug for til at SKALERE din virksomhed.
Kontakt os nu, og vi vil demonstrere vores vilje til at forpligte os forfærdeligt vores dedikerede tjenester, og lad os realisere din vision!