Hoe werkt een zoekmachine? (crawlen, indexeren, ranken)
Crawlen, Indexeren, Ranken
Aanbeland bij hoofdstuk 2 van onze SEO gids voor beginners. Zoals we in ons eerste hoofdstuk (Wat is SEO?) al aangaven zijn zoekmachines, antwoordmachines. Zoekmachines zijn er om alle content op het internet te verzamelen, organiseren en te beoordelen. Dit alles gebeurt, om zo de meest relevante antwoorden en oplossingen te presenteren aan de eindgebruiker.
Om terug te komen in de zoekresultaten van Google zal je website allereerst zichtbaar moeten worden voor de zoekmachines. Als jouw website niet gevonden kan worden door de zoekmachines, dan zal je website ook nooit zichtbaar worden in de zoekresultaten.
Hoe werkt een zoekmachine?
Zoekmachines hebben 3 primaire functies:
- Crawlen
- Indexeren
- Ranken
Wat is ‘Crawlen’?
Kan een zoekmachine jouw pagina’s vinden? Google scant gigantisch veel websites. Dit doen ze met behulp van robots die elke dag miljoenen websites afstruinen en beoordelen. We noemen dit ook wel ‘scannen’ en ‘crawlen’. De robots kunnen geen letters lezen, maar alleen code fragmenten herkennen die achter je tekst worden geplaatst in WordPress.
Tijdens het scannen en crawlen van de website herkennen deze robots waar de teksten over gaan. Dit komt doordat er bepaalde zoekwoorden, waar de bezoeker naar op zoek is, zijn opgenomen op verschillende plekken in de tekst (titel, kopteksten, meta descriptions).
Een manier om te achterhalen hoeveel pagina’s een zoekmachine heeft opgenomen in hun index voor jouw website, is door een ‘Site search in Google’ uit te voeren. Dat gaat als volgt:
- Ga naar www.google.nl
- Vul in: site:domeinnaam.nl
Google geeft je nu een overzicht van alle pagina’s die op dat moment in de index zijn opgenomen van de zoekmachine. In ons geval gaat het om 248 pagina’s die zijn opgenomen in de index van Google.
Dit aantal geeft je een indicatie welke pagina’s de zoekmachine momenteel heeft geïndexeerd.
Als je website nog niet voorkomt in de index van Google, dan kan dat meerdere oorzaken hebben:
- Jouw website is net nieuw en is nog niet gecrawld
- Andere websites linken nog niet naar jouw website
- Het is lastig voor de robots van Google om door je website te navigeren
- Jouw website bevat coderingen die ervoor zorgen dat je website niet gecrawld kan worden door een zoekmachine
- Jouw website heeft een penalty (straf) gekregen van Google, omdat je spammy technieken toepast
Vertel Google hoe ze het beste je website kunnen crawlen
Na het doen van een site search kun je erachter komen dat sommige van je belangrijkste pagina’s niet terug te vinden zijn in de index van Google. Of dat sommige pagina’s die je eigenlijk niet terug wilt laten komen in de index, wel worden geïndexeerd.
Gelukkig zijn er optimalisaties die je kunt toepassen, zodat je belangrijkste pagina’s wel worden opgenomen in de index en de minst belangrijke pagina’s niet worden opgenomen in de index.
De vraag is nu natuurlijk hoe je de zoekmachine kunt vertellen welke pagina’s ze wel en niet moeten crawlen.
Robots.txt bestand
Wie zegt u?
Robots.txt bestand kun je vinden door de volgende URL in te tikken in je zoekbalk: jouwdomein.nl/robots.txt
Ind it bestand kun je de opdrachten meegeven voor de zoekmachine welke pagina’s je wel en niet wilt laten crawlen. Daarnaast kun je in dit bestand ook opnemen met welke snelheid de zoekmachine jouw website moet crawlen.
Hoe gaat Google om met robots.txt bestanden?
- Als de Googlebot jouw website niet kan vinden, dan gaat Googlebot door met het crawlen van je website
- Als de Googlebot wel een robots.txt bestand tegenkomt, dan zal de Googlebot deze suggesties die je hebt gedaan volgen en wordt je website verder gecrawld
- Als de Googlebot een fout tegenkomt terwijl Googlebot je robots.txt bestand probeert te vinden en daarmee niet kan achterhalen of er een robots.txt bestand aanwezig is, dan wordt je website NIET gecrawld.
Optimaliseer je website voor crawlbudget
Crawlbudget is het gemiddelde aantal URL’s die Googlebot zal crawlen voordat hij je website verlaat. Dus het optimaliseren van je crawlbudget zorgt ervoor dat Googlebot geen tijd zal verspillen aan het crawlen van niet belangrijke pagina’s. Crawl budget is vaak een belangrijke factor bij websites met tienduizenden URL’s.
Het kan echter geen kwaad de URL’s uit te sluiten die niet relevant zijn.
Indexeren
Wat wordt er bedoeld met een zoekmachine index?
Zoekmachines slaan alle informatie die ze tegenkomen op. Al deze informatie wordt opgeslagen in een index. Dit is een gigantisch database met alle content die ze online zijn tegengekomen en die goed genoeg zijn om te presenteren aan de bezoekers.
Robots beoordelen je website op hoe makkelijk het bijvoorbeeld is om te navigeren door je website en hoe leesbaar de teksten zijn voor de bezoeker. Nadat de content op de pagina is gecrawld kun je de pagina door Google laten opnemen in de zoekresultaten van Google, door de pagina te laten indexeren.
Ranken
Wanneer de pagina is geïndexeerd, wordt deze beoordeeld op de inhoud. De inhoud bepaald voor een groot gedeelte op welke positie Google je pagina laat ranken.
Naast de inhoud zijn er nog meer ranking factoren op basis waarvan Google de content kan/zal beoordelen.