18 november 2014 16:14

Google verzint bijschriften voor je foto’s

Google leert je te vertellen wat er op foto's te zien is. Onderzoekers ontwikkelden een algoritme dat afbeeldingen interpreteert en beschrijft.

“Two pizzas sitting on top of a stove top oven.” Die accurate omschrijving van bovenstaande afbeelding lezen we op een nieuwe blogpost van Google. Voor een mens is zo’n beschrijving fabriceren niet moeilijk, maar wanneer een computer op die manier omschrijft wat er te zien is op een afbeelding wordt het spectaculairder.

Onderzoekers van Google ontwikkelden een algoritme dat visuele input niet alleen kan begrijpen, maar ook kan becommentariëren in volzinnen in mensentaal. Eenvoudig is de computertaal achter de interpretatie hoegenaamd niet. De onderzoekers maakten gebruik van verschillende neurale netwerken.

[related_article id=”158901″]

Computerbrein
Eerst wordt de afbeelding geanalyseerd door wat men een convolutional neural network (CNN) noemt. Dat is een artificieel neuraal netwerk dat gespecialiseerd is in het begrijpen van afbeeldingen. De data vergaard door het CNN worden integraal doorgevoerd naar een recurrent neural network (RNN).

Zo’n netwerk heeft als doel spreektaal te formuleren. Een intelligente vertaalcomputer kan gebruikmaken van zo’n RNN. Meestal wordt een zin in de ene taal dan door een eerste RNN omgezet naar vectoren, waarna een tweede RNN die vectoren omzet in een andere taal. Een letterlijke vertaling van ieder woord zou immers geen mooie volzin in de nieuwe taal zijn.

Door zo’n speciaal ontwikkeld vertaal-RNN de data van het CNN te voeden ontwikkelden de onderzoekers een systeem waarbij visuele inpunt vertaald wordt naar volzinnen. Het systeem kan zo rechtstreeks leren van wat er te zien is op afbeeldingen. De aanpak van Google is nieuw en levert veelbelovende resultaten af.

Perfect is het systeem natuurlijk nog niet. De onderzoekers lieten hun algoritme los op publiek beschikbare datasets met wisselend resultaat. Soms is het algoritme helemaal juist, soms maakt het foutjes (“twee honden spelen in het gras”, terwijl het er eigenlijk drie zijn) en soms slaat het de bal helemaal mis (“Een koelkast volgestouwd met eten en drinken”, terwijl het om een verkeersbord volgeplakt met stickers gaat).

Toch is het resultaat van het onderzoek indrukwekkend. De onderzoekers zien hun uitvinding in de toekomst gebruikt worden in onder andere plaatsen waar de internetverbinding erg slecht is. Artikels zouden immer kunnen laden met omschrijvingen van de afbeeldingen op de plaats waar normaal een prentje staat, dat door de slechte verbinding niet geladen kan worden. Het systeem kan ook helpen om mensen met een slecht zicht duidelijk te maken wat er op een foto staat.