Zoekmachines zoals Google hebben specifieke algoritmen. Deze algoritmen bepalen hoe hoog een website scoort in Google. Een pagina moet relevant zijn voor de gebruiker en deze relevantie telt dan ook zwaar mee. Om de kwaliteit en de inhoud van deze pagina’s goed te beoordelen, zoeken ‘robots’ en ‘spiders’ continue naar informatie. Op basis van verschillende criteria en frequentie van updates zal een site vaker of juist minder vaak bezocht worden.
In eerste instantie kijken de bots naar een lijst met sitemaps en webadressen uit eerdere crawls. Vanuit daar zoeken de bots alle andere links naar pagina’s die bezocht kunnen worden. Daarbij is speciale aandacht voor nieuwe sites, wijzigingen in bestaande sites en broken links. Ook is het mogelijk te bepalen welke webadressen niet mogen worden geïndexeerd met behulp van robots.txt’s zodat deze niet terug te vinden zijn wanneer wordt gezocht in zoekmachines. Denk hierbij aan bedankpagina’s na een aankoop op je website.
Door middel van het crawl budget bepaalt Google hoe lang de crawlers over de website crawlen. Hoe hoger je budget, hoe meer tijd Google neemt. Maar zelfs Google zal niet onbeperkt blijven crawlen, zelfs Google heeft grenzen als het gaat om budget. Het is een grote machine die alle gevonden data van het hele wereldwijde internet moet opslaan in datacenters. Dat kost geld.
Om kosten te besparen, wil het webpagina’s crawlen met hoge kwaliteit. Daarvoor gaat het op zoek naar signalen op je website die daarop duiden. Je kunt rekening houden met de volgende punten: