28 juli 2008 14:50

Google vindt biljoen URL’s, maar doorzoekt ze niet

Google heeft onlangs de mijlpaal van een biljoen (1.000.000.000.000) unieke geïndexeerde URL’s bereikt, meldden twee medewerkers vrijdag op de officiële Google-blog. Het overgrote merendeel van de gevonden pagina’s wordt niet doorzocht.

Veel webpagina’s hebben meerdere URL’s en die telt Google niet mee. "Zelfs na verwijdering van die exacte duplicaten zien we een biljoen unieke URL’s, en het aantal individuele webpagina’s groeit met meerdere miljarden pagina’s per dag", schrijven softwaretechnici Jesse Alpert en Nissan Hajaj in het blogbericht.

Onmeetbaar
Het werkelijke aantal unieke pagina’s is eigenlijk onmeetbaar, vervolgen ze. Webkalenders kunnen bijvoorbeeld een ‘volgende dag’-link hebben. Google kan die link altijd volgen en iedere keer weer een nieuwe pagina vinden, maar dat doet de zoekmachine niet omdat het geen nuttige zoekresultaten oplevert.

Google doorzoekt ook bij lange na niet alle pagina’s in zijn index. "Vele daarvan lijken op andere, of bevatten automatisch gegenereerde content vergelijkbaar met het voorbeeld van de kalender, die niet erg bruikbaar is voor zoekers", verklaren Alpert en Hajaj. Ze doelen waarschijnlijk tevens op spam.

Het aantal pagina’s dat Google werkelijk indexeert, wordt meestal geschat op zo’n 40 miljard.