Wetenschappers van Google claimen een doorbraak op het gebied van image search door patroonherkenning in plaatjes te combineren met het PageRank-algoritme. Twee Google-onderzoekers zetten ferme schreden op een terrein waar de technologie nog aanzienlijk achterloopt op de realiteit van het web. Terwijl online plaatjes en video de afgelopen jaren een ongekende vlucht namen, zijn zoekmachines nog niet in staat om deze goed te indexeren. Image search is namelijk nog steeds hoofdzakelijk gebaseerd op tekst zoals, titel, metatekst of tags. Visuele gelijkenis als hyperlinkInformatici Yushi Jing en Shumeet Baluja hebben de indexering van afbeeldingen door zoekmachines nu sterk verbeterd. Ze presenteerden hun bevindingen (pdf, zie ook hieronder) vorige week op het 'WWW2008' congres in Peking zo meldt TechCrunch. Hun doorbraak ligt in het feit dat ze het bekende en bewezen PageRank-algoritme kunnen inzetten voor plaatjes, iets wat voorheen onmogelijk was. Daarvoor wordt eerst automatische patroonherkenning ingezet die vormen, lijnen, objecten, kleuren en patronen indexeert. Plaatjesherkenning als zodanig is niet nieuw. Google zelf kocht hiertoe in 2006 Neven Vision, en ook fotozoekdienst Riya claimt geavanceerde gezichts- en patroonherkenning in huis te hebben. De vinding van Jing en Baluja zit hem in de 'behandeling' van deze index. Afbeeldingen worden vervolgens namelijk geclusterd op basis van gelijkende patronen, en vormen een soort virtuele wolk van onderling gerelateerde plaatjes, patronen of objecten. De relatie of link tussen twee afbeeldingen is sterker (korter) als de gezochte patronen meer met elkaar overeenkomen. Net zoals PageRank hyperlinks ordent op basis van de populariteit (autoriteit) van een webpagina, rangschikt ImageRank afbeeldingen op basis van visuele overeenkomsten. Veel relevanterUit tests van de onderzoekers blijkt dat ImageRank het aantal irrelevante resultaten bij het zoeken naar plaatjes sterk kan terugbrengen. Levert de huidige plaatjeszoeker van Google gemiddeld 2,82 irrelevante afbeeldingen in de eerste tien resultaten, met ImageRank wordt dat teruggebracht naar gemiddeld 0,47. In de top drie produceert Google nu gemiddeld 0,81 irrelevant plaatje, met ImageRank loopt dat terug tot 0,20. Update: Volgens de New York Times noemen de onderzoekers hun methode VisualRank, al komt die term in hun artikel niet voor. Bron : Webwereld |