Crawlen door zoekmachines

Zoekmachines zoals Google bezoeken websites om op te nemen in hun index en om elke pagina van websites op SEO waarde te beoordelen. Dit gebeurt door middel van crawling. Hierbij maakt een robot programma online bezoeken aan websites om deze te lezen, te indexeren en relevante data op te nemen wat de ranking van pagina’s bepaald. Wat leest een robot crawler van zoekmachines en waar wordt SEO waarde aan gehecht?

Inhoud verberg

1 Fase 1: Crawlen

2 Fase 2: Indexatie

3 Fase 3: Ranking

4 Wat crawlt een zoekmachine robot?

4.1 Hosting server data

4.2 HTML broncode van de website

5 Een robot crawl blokkeren

5.1 Pagina’s blokkeren van crawlen

5.2 URL’s blokkeren van crawlen

6 Wat is crawl budget

6.1 Sjoerd Kleijheeg

Fase 1: Crawlen

Wanneer een website voor het eerst live gaat met de eerste pagina’s dan zal een website gecrawld worden door een robot crawler. Deze neemt het bestaan van de website en elke url apart in zich op voor de data van zoekmachines.

Hierbij begint de robot crawler op de homepage, de domein url, en zal onderweg elke url die het tegenkomt ook crawlen waar naartoe wordt verwezen in de website. Dus alle hypertext links dat begint met domein.nl/ zal worden gezien. Behalve url’s waar geen verwijzing naart oe wordt gemaakt want daar kan de robot crawler niet komen zonder linkverwijzing. De url’s van die pagina’s worden dan ook niet meegenomen in de data en index, daarom heten ze ook “orphan pages”.

Fase 2: Indexatie

Een zoekmachine bestaat uit een index zoals bij een bibliotheek. Een website wordt pagina voor pagina opgenomen door de crawl robots van zoekmachines en in de data van zoekmachines geïndexeerd om te bepalen welke pagina van de website bij welk onderwerp uit de index van de zoekmachine hoort.

Na de indexatie worden pagina’s door zoekmachines opgehaald uit de index wanneer ze passen bij een onderwerp van de zoekopdracht in de zoekmachines. Ze worden dan getoont in de zoekmachine resultaten. Om te bepalen welke geïndexeerde pagina het beste aansluit op een gebruikte zoekterm van de zoekmachines gebruikers wordt gekeken naar de mate van relevantie van de inhoud van de pagina.

Fase 3: Ranking

Naarmate een website langer bestaat wordt deze vaker bezocht door dezelfde robot crawler om de nieuwste pagina’s te zien en op te nemen in de data en later de zoekmachine index. De ranking vindt daarna plaats wanneer door de indexatie een pagina steeds vaker uit de index wordt uitgelicht in de zoekmachine resultaten bij een zoekopdracht. Hoe meer een pagina op een bepaald thema in de index wordt opgemerkt als relevant hoe vaker die getoont wordt in de zoekmachines resultaten. En hoe vaker dit gebeurt hoe hoger die telkens in de zoekmachine resultaten komt te staan. Ranking is dus het steeds hoger in de zoekmachine resultaten komen.

Wat crawlt een zoekmachine robot?

In de beginfase heeft een website nog weinig crawl budget waardoor niet direct alles wordt gecrawld dus ook niet alles wordt geïndexeerd. Dat gebeurt naarmate een website steeds verder gaat groeien en de crawl robots vaker terug komen.

Hosting server data

Een robot crawler volgt url links wanneer die ze tegenkomt op het internet en haalt daarmee de website informatie op uit de server. Hierbij crawlt een robot na het zien van een url eerst de webserver waar de website op staat en leest dan de volgende data:

hostingserver
registrar van de server
ip adres van de server
registrar van de website op de server
bestandsindeling van de website op de server

HTML broncode van de website

Een crawl robot leest op een website niet alleen de url’s of verwijzende url’s naar andere pagina’s maar ook alle data uit de broncode van elke url apart. Dit is de html versie van een website pagina, ook wel broncode genoemd waar de weergave van de pagina uit data bestaat. Hierbij leest een crawl robot de volgende soorten data op een url / pagina.

Header code van een pagina

Dit is alle informatie dat in de header van de pagina staat. Dit is met name sitewide code dat op elke pagina staat maar per invulling ervan kan verschillen per pagina:

blokkering van indexatie aanwezig waarmee de robot de url niet indexeert
blokkering van links volgen waarmee de robot de verwijzende links niet volgt
pagina hoofdtitel is de naam van de url als titel weergegeven tenzij die apart wordt aangemaakt
meta data is standaard aanwezig en mits ingevuld verschilt de inhoud per pagina
schema markup is een samenvattende code over de inhoud van elke pagina apart
social media data dat mits aanwezig is wordt getoont
styling opties is een verwijzing naar de stylesheet dat aangeeft welke styling codes op te halen voor elke pagina
tracking code is een algemene code wat laat zien dat elke pagina wordt getrackt bij het bezoeken ervan
hoofdmenu code

Body code van een pagina

pagina titels en tussenkopjes, H1, H2, H3 et cetera
bodytekst, de content van de pagina
media bestanden, de aanwezigheid ervan en de titel en alt beschrijving
url verwijzingen naar andere pagina’s of websites
footer code

Al deze data wordt meegenomen in de index van zoekmachines waaruit bepaald wordt bij welk onderwerp een pagina past en hoe relevant de inhoud ervan aansluit bij de zoekopdracht.

Om te kunnen groeien in zoekmachine posities op de gewenste onderwerpen wordt door een SEO Specialist gekeken of alle informatie op de juiste manier in de broncode is opgenomen om relevant te zijn en op te vallen in de index van zoekmachines.

Een robot crawl blokkeren

Het is soms nodig om een crawl van een robot te blokkeren omdat sommige url’s en pagina’s niet noodzakelijk geïndexeerd hoeven te worden. Hiermee kun je dus specifiek aangeven wat je wel en niet wilt laten crawlen en dus ook niet indexeren. De twee voornaamste reden hiervoor zijn:

je website is nog niet klaar maar wilt deze wel in een live versie zien zonder dat die opgenomen wordt in zoekmachines
je wilt niet onnodig ranking waarde kwijtraken door pagina’s en url’s die er niet toe doen

Voor de eerste reden is dit makkelijk te verhelpen door bij de algemene instellingen van je website aan te geven “blokkeren voor zoekmachines”. Hiermee zal een website in het geheel niet geïndexeerd worden alhoewel dit het crawlen zelf niet tegenhoudt. Belangrijk is wel dat deze blokkering na de livegang van de website wordt opgeheven aangezien je dan wel geïndexeerd wilt worden.

Niet voor elke pagina is het nodig om te laten ranken door zoekmachines. Hierbij zijn er een aantal pagina’s die altijd aanwezig moeten zijn op websites die geen SEO waarde nodig hebben en dus uitgeschakeld kunnen worden van indexatie.

algemene voorwaarden
privacy policy
cookie policy
contactpagina
dynamische url’s

Pagina’s blokkeren van crawlen

Om het crawlen van pagina’s te blokkeren kun je elke pagina apart de tag “noindex nofollow” geven. “Noindex” is een tag die je aan een pagina geeft dat tegen de zoekmachine zegt “indexeer mij niet”. “Nofollow” is een tag dat zegt “volg de links op deze pagina niet”. Hiermee zal een robot crawler de pagina ook niet verder lezen en niet opnemen in de data van zoekmachines.

URL’s blokkeren van crawlen

Niet alle url’s zijn pagina’s op een website. De verschillende taxonomieën en posttypes in websites zoals pagina’s, berichten, category’s, tags, product eigenschappen, et cetera geven een url met een eigen paginaweergave dat inhoudelijk bewerkt kan worden.

Dynamische url’s zijn het soort url’s dat wel unieke pagina vertoningen creëert maar geen pagina op zichzelf is dat inhoudelijk kan worden bewerkt. Dit zijn bijvoorbeeld webshop filters en navigatie filters.

webshop/?filter_soort=product-kenmerk
website/page/2/

Deze dynamische url’s worden ook door robot crawlers meegenomen, geïndexeerd en komen dus tevoorschijn in zoekmachine resultaten. Het nadeel hiervan is dat deze url’s SEO waarde wegnemen van de originele url waar je wel mee wilt groeien in zoekmachines.

Deze url’s blokkeer je niet zomaar met de tags “noindex nofollow” omdat er geen pagina van bestaat. Deze url’s kun je alleen blokkeren door uitsluiting hiervan op te nemen in de robots.txt bestand van de web hosting.

De robots.txt bestand is een van de eerste onderdelen van een website dat een robot crawler bezoekt. Hierin leest die dus de opdracht om geen crawl te maken voor bepaalde algemene uitsluitingen.

Wat is crawl budget

In het begin zal een website een eerste crawl bezoek krijgen maar niet alle pagina’s zullen worden gecrawld door de robot. Dit komt omdat er nog geen krediet is opgebouwd. Wanneer een website al langer bestaat en al eerder is bezocht dan zal de crawler robot vaker en sneller terugkomen voor een volgende bezoek wanneer de website laat zien te groeien in informatie. Met andere woorden houden crawl robots van zoekmachines ervan op bezoek te gaan bij website die zich blijven ontwikkelen.

Dit betekent dat een website die voortdurend nieuwe informatie plaatst, of wijzigingen maakt, ook sneller worden geïndexeerd om nieuwe pagina’s of herschreven informatie op te nemen in de index. In dit geval zal de indexatie korter duren bij nieuwe pagina’s.