How Google Goggles Won, Then Lost, the Camera-First Future

A Google 2009 decemberében mutatta be a Goggles-t nyilvános termékként, a Google Mountain View-i kampuszától nem messze található Computer History Museumban tartott rendezvényen. A bemutatott termék csak néhány funkcióval rendelkezett: Tudta azonosítani a nevezetességeket, a műalkotásokat és néhány fogyasztási cikket, de semmi mást. A Google egyszerre volt óvatos és optimista a termékkel kapcsolatban. A Google Labs része volt, és még az alkalmazás beállításaiban is elmondta, hogy mi mindenre nem képes. De mindenki ismerte a tervet. “A Google Goggles ma nagyon jól működik bizonyos kategóriák bizonyos típusú tárgyainál, de a célunk az, hogy idővel bármilyen képet vizuálisan azonosítani tudjunk” – mondta Gundotra a bemutatón. “Ma még be kell keretezni egy képet, és el kell készíteni egy fotót, de a jövőben egyszerűen rá fogunk tudni mutatni… és úgy fogjuk tudni kezelni, mint egy egérmutatót a való világban. “

A Goggles mögött álló csapat azonban a technológia problémáinak hosszú listájával nézett szembe. Tudták, hogy az egérmutatós jövő még évekre van, ha egyáltalán lehetséges. “Mindig is tudtuk, hogy ez inkább egy kutatási projekt” – mondja egy korábbi mérnök. Még a legfejlettebb számítógépes látás is meglehetősen kezdetleges volt, és mivel a Google még nem kezdett el mélyen foglalkozni a gépi tanulással és a neurális hálózatokkal, a Goggles csak annyit tudott tenni, hogy egy fényképet egy adatbázishoz hasonlított.

A problémák egy részét nem is a Google-nek kellett megoldania. Az okostelefonok kamerái még nem voltak nagyszerűek, és az emberek sem nagyon tudták használni őket. És még ha az emberek jó fotókat is készítettek, gyakran sok potenciálisan érdekes dolog volt rajtuk; a Google nem tudhatta, hogy érdekel-e a fa, a pad, a kiskutya vagy a tábla a képen. A szövegfelismerő technológia segíthetett a dolgok azonosításában, de még ez is vadonatúj volt. A görbe vagy kézzel írt szöveg kihívás elé állította az algoritmusokat, akárcsak egy autómodell vagy bármilyen más, csak finom különbségek alapján azonosítható tárgy. A logók könnyűek voltak, a növények viszont nehezek. A vonalkódok egyszerűek voltak; az állatok lehetetlenek. Még az is, ami működött, túl sokáig tartott 3G-n keresztül.

A legfrusztrálóbb, hogy a Google még azt sem tudta használni, amit a legjobban tudott, a legterminátoriasabb funkciót: az arcfelismerést. “Ha hat vagy több kép van rólad az interneten, amelyek jól be vannak címkézve, és a rendszerünkön keresztül készítesz egy hetedik képet, akkor 90 százalékos valószínűséggel az első tíz keresési találat között volt a helyes válasz” – mondja Nalawadi. A Google azonban tudta, hogy nem vezetheti be a funkciót egy olyan időszakban, amikor a szabályozó hatóságok és a fogyasztók már kezdtek aggódni amiatt, hogy a Google mennyit tud róluk. A néhány hónappal korábbi Google Buzz bevezetésétől megsebzett, az adatvédelem megsértésétől hemzsegő Google Buzz miatt a vágószobában hagyták az arcfelismerést.

A kép tartalmazhat: Ember, és Személy — Milyen volt a Google Goggles első verzióinak használata.

Még akkor is, amikor a csapat a sok hegyes feladatot kalapálta, a Google folyamatosan hirdette a Goggles evangéliumát. 2010 nyarán Petrou a Stanfordban megrendezett Hot Chips konferencián tartott előadást, amelyben még izgalmasabb víziót vázolt fel. Az egyébként mélyen technikai jellegű előadás felénél Petrou egy “Kitérő a kiterjesztett valóságra” című diára lapozott. Kiderült, hogy a Goggles csapata már egy ideje gondolkodik az AR-n. Úgy gondolták, hogy ha a kamera megérti, amit lát, akkor potenciálisan több dolgot is hozzáadhat a jelenethez. Az egyik korábbi mérnök felidézte, hogy azzal kísérleteztek, hogyan lehetne azonosítani a dolgokat a keresőn belül, így amikor egy autó áthajtott a látómezőn, egy kis AR nyíl követhette volna az autót, amelyen az állt, hogy “Subaru”. Petrou hasonlóképpen elképzelte, hogy a felhasználó a híres Abbey Road zebrán állva nézi, ahogy a Beatles újrateremti az albumborítóját AR-ben. Vagy egy másik Terminátor-ihlette gondolatban arra gondolt, hogyan lehetne felerősíteni bizonyos dolgokat a látványban, mintha hőkamerát használnánk.

Az előadás vége felé Petrou elismerte a Goggles legfontosabb kérdését, amely a későbbiekben minden AR-n dolgozó céget sújtani fog. Feltette azt az ikonikus képet a Wall-E-ből, egy csomó egyenruhát viselő, elhízott embert, akik székeken ülnek, italokat kortyolgatnak és képernyőket bámulnak. “Ha ez a jövőnk, akkor az AR talán nem is olyan fontos” – mondta Petrou. A kiterjesztett valóság és a képkeresés csak akkor számít, ha az embereket érdekli az őket körülvevő világ, és a képernyőidő minden trendje azt mondja, hogy egyre kevésbé érdekli őket.”

A Goggles csapata folyamatosan kereste a lehetőségeket, hogy az emberek gyakrabban használják a Gogglest. A Goggles Sudoku megoldóvá, fordítóeszközzé és vonalkódolvasóvá vált, mindezt azért, hogy az emberek több okot kapjanak arra, hogy visszatérjenek az alkalmazáshoz. Petrou emlékszik, hogy dolgozott egy “virtuális graffiti” nevű funkción, ahol AR-ben lehetett rajzolni, és otthagyni valahol, hogy másoknak is eszébe jusson. A funkció gyakorlatilag ugyanúgy hangzik, mint a kiterjesztett valóságú művészet, amelyet a Facebook 2017-ben mutatott be a Facebook Camera platformhoz. A Google évekkel korábban állt hozzá az ötlethez, de soha nem szállította le.

Glass Shattering

A Google folytatta a Goggles fejlesztését, de a fejlődés hamarosan megtorpant. A vállalat a Goggles teljes iPhone-verzióját ígérte, de végül beillesztette azt a Google alkalmazásba — majd gyorsan eltávolította a funkciót. A Google 2011 után alig beszélt a Googlesről. 2012-re a vállalat többé-kevésbé leállította a fejlesztést.

A legtöbb embernek, akivel beszéltem, eltérő elképzelései voltak arról, hogy mi okozta a Goggles halálát. A csapat egyik tagja szerint végül belátták a technológia korlátait, és egyszerűen feladták. Egy másik szerint az emberek még nem voltak megelégedve az ötlettel, hogy állandóan felemelt kamerával járkáljanak. De volt még egy dolog, az egyetlen, amit mindenki említett, ami lehetett a bűnös.

2011-ben a Google szabadalmi kérelmet nyújtott be egy “fejre szerelt kijelzőre, amely a látómezőn kívül megjeleníti a fizikai interakció vizuális megjelenítését egy beviteli felülettel”. Ez egy csomó szó, de a kép elárulta a történetet: Ez volt a Google Glass. A szabadalom neve? David Petrou.

Catalin Voss és a Google Glass — A Google Glass a Goggles összes funkcióját a szemünk elé ígérte.

Ariel Zambelich/WIRED

Petrou szerint “soha nem kérdőjeleztük meg a mobiltelefonokat” mint a vizuális keresés hasznos helyét, de mások szerint a Goggles csapata mindig is tudta, hogy az okostelefonok nem az ideális eszközök a technológiájukhoz. Végül úgy gondolták, hogy a felhasználók inkább egy olyan kütyüt szeretnének, amelyet nem kell tartaniuk vagy kezelniük; egy szemüvegnek volt értelme. (A kontaktlencse még menőbbnek tűnt.) Ez a technológia azonban még évekre távolinak tűnt, és nagy ugrásokat igényelt volna a feldolgozási teljesítmény, az akkumulátor hatékonysága és az internetkapcsolat terén. Azért dolgoztak tovább az okostelefonokon, mert az okostelefonok működtek.

A praktikum azonban nem mindenkinek számított. A Goggles csapat egyik korábbi tagja elmondta nekem, hogy részben a Google vezetői egyszerűen azért kedvelték a Goggles-t, mert az “egy zseniális demo” volt. Az akkori társ-vezérigazgatók, Larry Page és Sergey Brin szerették megmutatni a Goggles-t az embereknek, mondta ez a személy, mert új volt, ügyes és futurisztikus. Amikor megjelent a Glass, amely nem csak kamerás keresést, hanem egy teljesen újfajta eszközt és platformot ígért, a Goggles elhalványult ehhez képest. “Ez egy még zseniálisabb demó volt” – mondja az egykori mérnök.

A Glass-t valóban sokkal jobban reklámozták, mint bármely más Google-terméket korábban vagy azóta. Brin épp időben szakította meg a 2012-es Google I/O konferencián tartott nyitóbeszédét, hogy láthassa, ahogy a Glass-t viselő ejtőernyősök a levegőbe zuhannak, a konferencia-központ tetején landolnak, és BMX-biciklivel hajtanak be az előadóterembe. Egy figyelemre méltó videóban, amelynek címe: “Egy nap…” a Google megmutatta, hogyan nézhet ki egy Glass-szal kiegészített élet. Brin még a 2013-as TED-konferenciára is elvitte a Glass-t, és szenvedélyesen érvelt egy olyan jövő mellett, ahol a kütyük inkább felszabadítják a szemünket, kezünket és fülünket, mintsem elfoglalják azokat. A Glass teljes és csábító képet nyújtott a jövőről, és sokakat inspirált a Google-on belül és kívül. Azzal nem törődve, hogy a technológia nem igazán működött.”

Nalawadi szerint elég hamar “szerintem a lendület a Glass projekt felé tolódott el”. Néhány Goggles alkalmazott el is ment dolgozni a csapatba. Mások máshová mentek: a Mapshez, a YouTube-hoz, a Google Now-hoz. Néhányan teljesen elhagyták a Google-t. Egy bizonyos ponton a Goggles egyszerűen nem volt többé. 2014 közepére már senki sem maradt, aki még az Android-alkalmazást is frissítette volna.

Vissza a kezdetekhez

Amikor a Google feladta a Goggles-t, más cégek kezdték meglátni az ötlet értékét. A Snapchat 2011-ben indult, mint az eltűnő üzenetek küldésének eszköze, de gyorsan felkarolta az okostelefonok kameráit, mint erőteljes platformot. A Pinterest a képek keresőkérdésekké alakításán alapult; tűzz ki egy széket, ami tetszik, és a Pinterest segített berendezni a házadat. Az Apple, a Facebook és mások számára a kiterjesztett valóság sci-fi lehetetlenségből a közeljövő termékévé vált.

Még a Google-n belül sem ment kárba a mögöttes technológia. Sőt, gyorsabban fejlődött, mint valaha. “A mélytanulás miatt volt ez a nagy lépés-funkció ugrás” – mondja Aparna Chennapragada, a Google egyik vezető termékigazgatója. “Ugyanazt a lépcsőfok-ugrást, amit a hanggal elértünk, kezdtük látni a képkeresésben is.” Az AI-chipekbe való befektetésnek és a Google egész vállalatra kiterjedő, AI-gondolkodásra való átállásának köszönhetően az eredmények egyre jobbak és gyorsabban javultak1. A váltás első eredménye: A Google Fotók, a nagy teljesítményű kereső és segítő képességekkel. (Itt a Google végre bevethette az arcfelismerést is.)

Ennyi év után a legtöbb dolog, ami a Goggles-t hátráltatta, megoldódott. Az okostelefonok kamerái kiválóak, akárcsak a kontextusgyűjtő szenzorok, például a giroszkóp és a GPS, amelyek segítenek rögzíteni a felhasználó helyzetét a világban. Ennek eredményeképpen a felhasználók milliárdjai naponta több tucatszor boldogan nyitják ki a telefonjukat, hogy emlékeket osszanak meg, bevételeket rögzítsenek, élőben közvetítsenek eseményeket, és elmentsenek dolgokat, hogy később emlékezzenek rájuk. A back-end technológia gyorsabb, a front-end felületek egyszerűbbek. Még senki sem visel arckijelzőt, de a felhasználók nem bánják, hogy ezt a telefonjukon teszik.

A kép tartalmazhat: Elektronika, monitor, kijelző, képernyő, ember, személy, kabát, ruházat, felöltő, ruházat és öltöny — Matt Vokoun, a Google, Inc. termékmenedzsment igazgatója, bemutatja a Google Lens-t egy termékbemutató rendezvényen 2017. október 4-én a kaliforniai San Franciscóban.

ELIJAH NOUVELAGE/AFP/Getty Images

Mindez segít megmagyarázni, mi történt 2017 májusában, amikor a Google vezérigazgatója, Sundar Pichai az I/O fejlesztői konferencián színpadra lépett és bejelentette, hogy… Alapvetően megint a Goggles-t. Csak ezúttal Lensnek hívják. “A Google Lens egy sor látásalapú számítástechnikai képesség, amely képes megérteni, hogy mit nézel, és segít az információ alapján cselekedni” – mondta Pichai. Demókat mutatott be: egy virágtípus azonosítása, vagy a Wi-Fihez való automatikus csatlakozás a felhasználónév és a jelszó lefényképezésével. Eddig minden rendben a Goggles-szel. Beleértve azt is, hogy a videóban látottakból semmi sem működött a közeljövőben a tényleges termékben. Jelenleg a Lens ugyanazt csinálja, amit a Goggles 2010-ben, csak sokkal gyorsabban.

Ezért könnyen elgondolkodhatunk azon, hogy a Google elpazarolt egy több éves előnyt, amikor azon gondolkodott, hogyan akarják majd az emberek használni a kameráját. A vállalatnál néhányan megértették, hogy a felhasználók egy nap talán a telefonjuk képernyőjén keresztül szeretnék majd felfedezni a világot. Lehet, hogy valamire rá akarják irányítani a telefonjukat, hogy jobban megértsék, és lehet, hogy a digitális világot a fizikai világ fölé akarják helyezni. Lehet, hogy a Google tudta ezt először, de mások megelőzték a versenyben, hogy valami olyat építsenek, ami megragadja a felhasználók szívét és elméjét.

Mégis, még ha a Google korábban is érkezhetett volna a buliba, még mindig nem késő. A Google hatalmas belső előnyökkel rendelkezik, a keresőmotoros tudásától kezdve az adatok gyűjtésének és személyre szabásának hosszú történelméig. És a Google a Goggles-kísérletből is levont néhány tanulságot. Ezúttal a Lens nem egy önálló alkalmazás lesz. Ehelyett a technológia számos Google-terméken keresztül fog futni. Segítségével telefonszámokat vagy éttermi információkat ragadhatsz ki a Google Fotók bármelyik felvételéből. Hamarosan a Google Assistant része lesz, és segít keresni bármit, amire szükséged van, ahogyan csak akarod. Ahelyett, hogy egy olyan alkalmazást készítene, amelyet talán soha nem nyitsz meg, a Google a Lens-t mindenhová beilleszti, ahol már most is használod, abban a reményben, hogy felfedezed és használod.

A Google világossá tette, hogy a Lens hosszú távú tét a vállalat számára, és egy platform sok felhasználási esethez. Pichai a Lens-t a Google kezdeteihez hasonlította, hogy a keresés csak azért volt lehetséges, mert a Google értett a weboldalakhoz. Most pedig megtanulja megérteni a világot. Fogadjunk, hogy legközelebb, amikor a Google megpróbál számítógépet tenni az arcodra, a Lens ott lesz. Ez egy jó kis bemutató lesz.

1UPDATE: Ez a cikk most már pontosan tükrözi, hogy a Google AI-beruházásainak mely részei járultak hozzá közvetlenül a vizuális keresési projektekhez.