How Google Goggles Won, Then Lost, the Camera-First Future

Google lanseerasi Gogglesin julkisena tuotteena joulukuussa 2009 tapahtumassa Computer History Museumissa Googlen Mountain View -kampuksen vieressä. Esittelyssä olleessa tuotteessa oli vain muutamia ominaisuuksia: Sillä pystyi tunnistamaan maamerkkejä, taideteoksia ja joitakin kuluttajatuotteita, mutta ei juuri muuta. Google suhtautui tuotteeseen sekä varovaisesti että optimistisesti. Se oli osa Google Labsia, ja jopa sovelluksen asetuksissa kerrottiin, mihin kaikkeen se ei pystynyt. Mutta kaikki tiesivät suunnitelman. ”Google Goggles toimii nykyään erittäin hyvin tietyntyyppisissä kohteissa tietyissä luokissa, mutta tavoitteenamme on pystyä tunnistamaan visuaalisesti mikä tahansa kuva ajan mittaan”, Gundotra sanoi julkistustilaisuudessa. ”Nykyään sinun on kehystettävä kuva ja otettava kuva, mutta tulevaisuudessa voit vain osoittaa sitä… ja voimme käsitellä sitä kuin hiiren osoitinta reaalimaailmassa. ”

Sisäisesti Gogglesin takana oleva tiimi tuijotti kuitenkin pitkää listaa teknologian ongelmista. He tiesivät, että hiiren osoittimen tulevaisuus oli vuosien päässä, jos se oli edes mahdollista. ”Tiesimme aina, että se oli enemmänkin tutkimusprojekti”, eräs entinen insinööri sanoo. Edistyneimmätkin tietokonenäkökyvyt olivat vielä melko alkeellisia, ja koska Google ei ollut vielä alkanut työskennellä syvällisesti koneoppimisen ja neuroverkkojen parissa, Goggles ei pystynyt tekemään muuta kuin vertaamaan kuvaa tietokantaan.

Joitakin ongelmia ei ollut edes Googlen ratkaistavana. Älypuhelinten kamerat eivät olleet vielä loistavia, eivätkä ihmiset olleet kovin hyviä käyttämään niitä. Ja vaikka ihmiset ottaisivat hyviä kuvia, niissä oli usein paljon potentiaalisesti kiinnostavia asioita; Google ei voinut tietää, välititkö kuvassasi olevasta puusta, penkistä, koiranpennusta vai kyltistä. Tekstintunnistustekniikka voisi auttaa tunnistamaan asioita, mutta sekin oli aivan uutta. Kaareva tai käsinkirjoitettu teksti haastoi algoritmit, samoin kuin automalli tai mikä tahansa muu esine, joka oli tunnistettavissa vain hienoisten erojen perusteella. Logot olivat helppoja, kasvit vaikeita. Viivakoodit olivat yksinkertaisia, eläimet mahdottomia. Jopa ne asiat, jotka onnistuivat, veivät liian kauan 3G:n kautta.

Kaikkein turhauttavinta oli se, että Google ei pystynyt käyttämään edes parasta osaamistaan, terminatormaisinta ominaisuuttaan: kasvojentunnistusta. ”Jos internetissä on vähintään kuusi hyvin merkittyä kuvaa sinusta ja otat järjestelmämme kautta seitsemännen kuvan, 90 prosentin todennäköisyydellä oikea vastaus oli kymmenen ensimmäisen hakutuloksen joukossa”, Nalawadi sanoo. Google kuitenkin tiesi, ettei se voinut ottaa ominaisuutta käyttöön aikana, jolloin sääntelyviranomaiset ja kuluttajat olivat jo alkaneet huolestua siitä, kuinka paljon Google tiesi heistä. Muutamaa kuukautta aiemmin lanseeratun Google Buzzin, joka oli ollut täynnä yksityisyydensuojan loukkauksia, arpeuttamana he jättivät kasvojentunnistuksen leikkaushuoneen lattialle.

Kuvassa saattaa olla: Ihminen, ja Henkilö — Miltä näytti Google Gogglesin ensimmäisten versioiden käyttäminen.

Jopa silloin, kun tiimi moukaroi monien vuorenluonteisten tehtävien kimpussa, Google jatkoi Gogglesin evankeliumin julistamista. Kesällä 2010 Petrou piti Stanfordin Hot Chips -konferenssissa keynote-puheenvuoron, jossa hän esitti vielä jännittävämmän vision. Noin puolivälissä muuten hyvin teknistä puhettaan Petrou siirtyi diaan, jonka nimi oli ”Digression into Augmented Reality”. Kävi ilmi, että Goggles-tiimi oli miettinyt AR:ää jo jonkin aikaa. He ajattelivat, että jos kamera ymmärtäisi, mitä se näkee, se voisi mahdollisesti lisätä kohtaukseen lisää asioita. Eräs entinen insinööri muisteli kokeilleensa, miten tunnistaa asioita etsimen sisällä, niin että kun auto ajoi näkymän läpi, pieni AR-nuoli, jossa luki ”Subaru”, saattoi seurata autoa. Samoin Petrou kuvitteli käyttäjän seisovan kuuluisalla Abbey Roadin risteysalueella ja katsovan, kuinka Beatles luo albuminsa kannen uudelleen AR:nä. Tai toisessa Terminator-henkisessä ajatuksessa hän pohti, miten hän voisi vahvistaa tiettyjä asioita näkymässäsi ikään kuin käyttäisit lämpökameraa.

Samaisen puheen loppupuolella Petrou myönsi Gogglesin tärkeimmäksi kysymykseksi muodostuneen kysymyksen, joka tulisi myöhemmin vaivaamaan jokaista AR:n parissa työskentelevää yritystä. Hän esitti Wall-E:n ikonisen kuvan, jossa joukko univormuihin pukeutuneita lihavia ihmisiä istuu tuoleilla, siemailee juomia ja tuijottaa näyttöjä. ”Jos tämä on tulevaisuutemme, AR ei ehkä olekaan niin tärkeä”, Petrou sanoi. Lisätyllä todellisuudella ja kuvahaulla on merkitystä vain, jos ihmiset välittävät ympäröivästä maailmasta, ja jokainen ruutuajan trendi kertoo, että he ovat yhä vähemmän kiinnostuneita.

Goggles-tiimi etsi jatkuvasti keinoja saada ihmiset käyttämään Gogglesia useammin. Gogglesista tuli sudokun ratkaisija, käännöstyökalu ja viivakoodinlukija, jotta ihmiset saisivat lisää syitä palata sovelluksen pariin. Petrou muistaa työskennelleensä ”virtuaaligraffitiksi” kutsutun ominaisuuden parissa, jossa voit piirtää AR:ssa ja jättää sen jonnekin muiden mieleen. Ominaisuus kuulostaa lähes identtiseltä lisätyn todellisuuden taiteen kanssa, jota Facebook esitteli Facebook Camera -alustallaan vuonna 2017. Google oli vuosia aiemmin idealla, mutta ei koskaan toimittanut sitä.

Glass Shattering

Google jatkoi Gogglesin kehittämistä, mutta edistyminen pysähtyi pian. Yhtiö oli luvannut Gogglesista täyden iPhone-version, mutta lisäsi sen lopulta Googlen sovellukseen — ja poisti ominaisuuden sitten nopeasti. Google tuskin puhui Googlesista vuoden 2011 jälkeen. Vuoteen 2012 mennessä yhtiö oli enemmän tai vähemmän lopettanut kehitystyön.

Useimmilla ihmisillä, joiden kanssa puhuin, oli erilaisia käsityksiä siitä, mikä tappoi Googglesin. Eräs tiimin jäsen sanoo, että he näkivät lopulta tekniikan rajat ja vain luovuttivat. Toisen mukaan ihmiset eivät vielä pitäneet ajatuksesta, että he kävelisivät ympäriinsä kamera koko ajan ylhäällä. Mutta oli vielä yksi asia, ainoa, jonka kaikki mainitsivat, joka saattoi olla syyllinen.

Vuonna 2011 Google jätti patenttihakemuksen ”päähän kiinnitettävästä näytöstä, joka näyttää visuaalisen esityksen fyysisestä vuorovaikutuksesta näkökentän ulkopuolella olevan syöttöliittymän kanssa”. Siinä on paljon sanoja, mutta kuva kertoi kaiken: Se oli Google Glass. Nimi patentissa? David Petrou.

Catalin Voss ja hänen Google Glassinsa — Google Glass lupasi kaikki Gogglesin ominaisuudet suoraan silmiesi edessä.

Ariel Zambelich/WIRED

Petrou sanoo, että ”emme koskaan kyseenalaistaneet matkapuhelimia” käyttökelpoisena paikkana visuaaliselle etsinnälle, mutta toisten mukaan Goggles-tiimi tiesi aina, etteivät älypuhelimet olleet ihanteellisia laitteita heidän teknologialleen. Lopulta he ajattelivat, että käyttäjät haluaisivat mieluummin vekottimen, jota heidän ei tarvitse pitää kädessä tai hallita; silmälasit olivat järkevät. (Piilolasit tuntuivat vielä hienommilta.) Kaikki tämä tekniikka näytti kuitenkin olevan vuosien päässä, ja se vaatisi suuria harppauksia prosessointitehossa, akun tehokkuudessa ja internet-yhteyksissä. Älypuhelimissa jatkettiin, koska älypuhelimet toimivat.

Mutta käytännöllisyydellä ei ollut merkitystä kaikille. Eräs Goggles-tiimin entinen jäsen kertoi minulle, että osittain Googlen johtajat pitivät Gogglesista yksinkertaisesti siksi, että se oli ”huikea demo”. Kyseinen henkilö sanoi, että silloiset toimitusjohtajat Larry Page ja Sergey Brin näyttivät Gogglesia mielellään ihmisille, koska se oli uusi, näppärä ja futuristinen. Kun Glass tuli ja lupasi kameralla varustetun haun lisäksi aivan uudenlaisen laitteen ja alustan, Goggles kalpeni sen rinnalla. ”Se oli vielä huikaisevampi demo”, entinen insinööri sanoo.

Glasia mainostettiin paljon enemmän kuin mitään muuta Googlen tuotetta ennen tai jälkeen sen. Brin keskeytti keynote-puheenvuoron Google I/O -konferenssissa vuonna 2012 juuri ajoissa nähdäkseen, kuinka Glassia kantavat laskuvarjohyppääjät putosivat ilmaan, laskeutuivat konferenssikeskuksen katolle ja ajoivat BMX-pyörillä auditorioon. Merkillisellä videolla, jonka otsikko on ”One day…”. Google näytti, miltä Glass-avusteinen elämä voisi näyttää. Brin otti Glassin mukaan jopa TED-konferenssiin vuonna 2013 ja puhui intohimoisesti tulevaisuuden puolesta, jossa laitteet vapauttavat silmät, kädet ja korvat sen sijaan, että ne valtaisivat ne. Glass tarjosi kattavan ja houkuttelevan näkymän tulevaisuuteen ja innoitti monia Googlen sisällä ja ulkopuolella. Puhumattakaan siitä, että tekniikka ei oikeasti toiminut.

Hyvin nopeasti, Nalawadi sanoo, ”luulen, että vauhti siirtyi Glass-projektiin”. Muutama Gogglesin työntekijä meni jopa töihin tiimiin. Toiset lähtivät muualle: Mapsiin, YouTubeen, Google Now’hun. Jotkut jättivät Googlen kokonaan. Jossain vaiheessa Gogglesista ei vain tullut enää mitään. Vuoden 2014 puoliväliin mennessä kukaan ei enää edes päivittänyt Android-sovellusta.

Takaisin siitä, mistä aloitimme

Juuri kun Google luopui Gogglesista, muut yritykset alkoivat nähdä ideassa arvoa. Snapchat lanseerattiin vuonna 2011 välineenä katoavien viestien lähettämiseen, mutta omaksui nopeasti älypuhelinten kamerat tehokkaaksi alustaksi. Pinterest perustui kuvien muuttamiseen hakukyselyiksi; pinaa tuoli, josta pidät, ja Pinterest auttoi sinua sisustamaan talosi. Applelle, Facebookille ja muille lisätyn todellisuuden käyttö muuttui scifi-mahdottomuudesta lähitulevaisuuden tuotteeksi.

Jopa Googlen sisällä taustalla oleva teknologia ei mennyt hukkaan. Itse asiassa se kehittyi nopeammin kuin koskaan. ”Syväoppimisen takia meillä oli tämä suuri askel-toimintohyppy”, sanoo Aparna Chennapragada, Googlen vanhempi tuotejohtaja. ”Sama toimintahyppäys, jonka saimme aikaan puheäänen kanssa, alkoi näkyä myös kuvahaussa.” Tekoälypiireihin tehtyjen investointien ja Googlen koko yrityksen laajuisen tekoälyajatteluun siirtymisen ansiosta tulokset paranivat ja paranivat nopeammin1. Siirtymän ensimmäinen tulos: Google Photos ja sen tehokkaat haku- ja apuominaisuudet. (Tässä Google sai vihdoin käyttöönsä myös kasvojentunnistuksensa.)

Kaikkien näiden vuosien jälkeen suurin osa siitä, mikä esti Gogglesia, on ratkaistu. Älypuhelimen kamerat ovat erinomaisia, samoin kuin kontekstia keräävät sensorit, kuten gyroskooppi ja GPS, jotka auttavat kiinnittämään käyttäjän sijainnin maailmaan. Tämän ansiosta miljardit käyttäjät avaavat puhelimensa iloisesti kymmeniä kertoja päivässä jakaakseen muistoja, ottaakseen kuitteja, suoratoistamaan tapahtumia ja tallentaakseen asioita muistettavaksi myöhemmin. Back-end-tekniikka on nopeampaa ja front-end-käyttöliittymät helpompia. Kukaan ei vielä käytä kasvotietokoneita, mutta käyttäjät eivät välitä tehdä sitä puhelimillaan.

Kuva saattaa sisältää: Electronics, Monitor, Display, Screen, Human, Person, Coat, Clothing, Overcoat, Apparel, and Suit — Matt Vokoun, Director of Product Management at Google, Inc, esittelee Google Lensin tuotteen lanseeraustilaisuudessa 4. lokakuuta 2017 San Franciscossa, Kaliforniassa.

ELIJAH NOUVELAGE/AFP/Getty Images

Kaikki tämä selittää osaltaan sen, mitä tapahtui toukokuussa 2017, kun Googlen toimitusjohtaja Sundar Pichai nousi I/O-kehittäjäkonferenssin lavalle ja ilmoitti… Goggles taas periaatteessa. Tällä kertaa sen nimi on vain Lens. ”Google Lens on joukko näköön perustuvia laskentakykyjä, jotka ymmärtävät, mitä katsot, ja auttavat sinua toimimaan tämän tiedon perusteella”, Pichai sanoi. Hän esitteli esimerkkejä: kukkatyypin tunnistaminen tai automaattinen Wi-Fi-yhteyden muodostaminen vain ottamalla kuva käyttäjätunnuksesta ja salasanasta. Niin pitkälle, niin Goggles. Mukaan lukien se, että mikään siitä, mikä videolla toimi, ei olisi mahdollista varsinaisessa tuotteessa lähiaikoina. Tällä hetkellä Lens tekee samoja asioita kuin Goggles vuonna 2010, vain paljon nopeammin.

On helppo miettiä, tuhlasiiko Google vuosien etumatkaa miettimällä, miten ihmiset haluaisivat käyttää kameraansa. Muutamat ihmiset yhtiössä ymmärsivät, että käyttäjät saattaisivat jonain päivänä haluta tutkia maailmaa puhelimensa näytön kautta. He saattaisivat haluta suunnata puhelimensa johonkin, jotta he ymmärtäisivät sen paremmin, ja he saattaisivat haluta päällystää digitaalisen maailman fyysisen maailman päälle. Google ehkä tiesi sen ensimmäisenä, mutta muut päihittivät sen kilpajuoksussa, jossa se rakensi jotain, joka valloitti käyttäjien sydämet ja mielet.

Vaikka Google olisikin voinut tulla juhliin aikaisemmin, se ei silti ole myöhässä. Googlella on valtavasti luontaisia etuja, hakukoneosaamisesta datan keräämisen ja personoinnin pitkään historiaan. Google oppi Goggles-kokeilusta muutamia asioita. Tällä kertaa Lens ei ole itsenäinen sovellus. Sen sijaan tekniikka kulkee monien Googlen tuotteiden kautta. Sen avulla voit poimia puhelinnumeroita tai ravintolatietoja mistä tahansa Google Photosin kuvasta. Pian se on osa Google Assistantia, joka auttaa sinua etsimään mitä tahansa tarvitsemaasi asiaa haluamallasi tavalla. Sen sijaan, että Google tekisi sovelluksen, jota et ehkä koskaan avaa, se laittaa Lensin kaikkialle, missä olet jo nyt, ja toivoo, että löydät sen ja käytät sitä.

Google on tehnyt selväksi, että Lens on yhtiön pitkäaikainen panostus ja alusta monille käyttötapauksille. Pichai vertasi Lensiä Googlen alkuihin, kuinka haku oli mahdollista vain siksi, että Google ymmärsi verkkosivuja. Nyt se oppii ymmärtämään maailmaa. Voit lyödä vetoa, että seuraavan kerran, kun Google yrittää laittaa tietokoneen kasvoillesi, Lens on mukana. Siitä tulee melkoinen demo.

1UPDATE: Tämä juttu kuvastaa nyt tarkasti, mitkä osat Googlen tekoälyinvestoinneista vaikuttivat suoraan sen visuaalisen haun projekteihin.