Geschreven door sjoerd op

Een robots.txt bestand is een simpel tekstbestand wat je op de server zet waar de website op draait. Hierin kun je aangeven wat een zoekrobot moet doen wanneer hij je website crawlt (je website verkent).  Je kunt hierin heel specifiek aangeven welke URL of groepen URL’s je niet in de zoekmachines wilt laten terugkomen.

 

Welke zoekrobots?

Er zijn heel veel verschillende zoekrobots en je kunt in principe voor elke zoekrobot andere URL’s blokkeren. Er zijn bepaalde zoekrobots van bijvoorbeeld vergelijkingssites die al jouw content crawlen en deze vervolgens op hun eigen website plaatsen. Daarvoor kun je met een regel aangeven voor welke zoekrobot(s) de regels eronder zijn bedoeld:

User-agent: *

Het sterretje dat je ziet noemen ze een “wildcard”. Hiermee bedoel je alle tekens, of in dit geval alle zoekobots. Hier vind je een vrij uitgebreide lijst van verschillende zoekrobots.

 

Waar kan ik mijn robots.txt bestand vinden?

De locatie van het robots.txt bestand dient altijd:

jouwdomein.nl/robots.txt

te zijn. Wanneer je deze locatie gebruikt, weet iedere zoekrobot je robots.txt bestand te vinden. Plaats jij hem op:

jouwdomein.nl/robottekstbestand.txt

Dan weet geen enkele zoekrobot dat jij hem daar hebt staan en kunnen ze hem niet vinden.

 

Je hele website blocken voor zoekmachines

Vaak willen mensen hun gehele website blocken voor zoekmachines tijdens de ontwikkelfase. Dit kun je deels doen met het robots.txt bestand, namelijk door de volgende regel toe te voegen:

Disallow: /

Hiermee geef je aan dat je niet wilt dat zoekmachines is de map “/” komen en laat dit nou net de map zijn waar je hele website in staat. Dit is echter geen waterdichte manier om je website helemaal uit de zoekmachines te houden. Wanneer iemand namelijk een link plaatst naar een URL die jij hebt geblokkeerd in de zoekmachines, negeren sommige zoekmachines jouw regel en komt de pagina wél in de zoekmachine.

Om echt zeker te zijn dat bepaalde webpagina’s niet in de zoekmachines terug komen, kun je één van de onderstaande metatags op die pagina’s plaatsen:

 

Een specifieke categorie of map op je website blocken

Met een disallow regel is het dus heel eenvoudig om bepaalde mappen deels uit te sluiten. Simpelweg door het toevoegen van de disallow regel, gevolgd door de map die je wilt uitsluiten zoals:

Disallow: /schoenen/
Ook is het mogelijk om alle URL’s uit te sluiten die een “?” vraagteken bevatten:
Disallow: /*?*

Er zijn verschillende mogelijkheden, maar zoals ik al aangaf, is het gebruik van een NOINDEX, FOLLOW of een NOINDEX, NOFOLLOW metatag veiliger.

 

Hoe belangrijk is een Robots.txt bestand?

Het is niet cruciaal, maar wel raadzaam om altijd een robots.txt op je website te hebben. Je kunt hier namelijk mee sturen welke “onbelangrijke” URL’s een Google zoekrobot NIET moet crawlen. Hiermee bespaar je zoekmachines tijd en moeite om deze niet belangrijke pagina’s te crawlen, waardoor ze alleen pagina’s crawlen die voor jou WEL belangrijk zijn.

 

Heb ik een robots.txt bestand? Hoe check ik dit? Robots.txt Checker

Je kunt heel gemakkelijk zelf checken of je een robots.txt bestand hebt door achter je domeinnaam /robots.txt te typen. Ook kun je dit in de Google webmaster tools checken onder het kopje “Siteconfiguratie > Crawlertoegang”.

Robots.txt checken

Robots.txt generator van Google

In de google webmaster tools kun je ook eenvoudig een nieuw robots.txt bestand maken, hier geef je simpelweg aan of je wilt toestaan of blokkeren en op welke URL of map je dit wilt toepassen.

Robots.txt genereren

Robots.txt en Sitemap.xml **tip**

Een belangrijke regel die webmasters vaak vergeten is:

Sitemap: http://www.jouwdomein.nl/sitemap.xml

Heb je namelijk een XML sitemap, dan weten alle zoekmachines door het toevoegen van bovenstaande regel ook waar ze deze kunnen vinden!

Wil je meer weten over het gebruik van robots.txt? Neem gerust contact op!

| Contentmarketing | Conversie Optimalisatie | Display Advertising | Google AdWords | Google Analytics | Google overig | Klantcases | Nieuws | Social Media | Webdesign | Webshops | WordPress | Zo Zeo | Zoekmachine optimalisatie |

2 reacties op “Robots.txt bestand: wat is het en hoe gebruik je het?

  1. Roald Craenen schreef:

    Die laatste tip is niet bepaald handig! Je sluit namelijk je sitemap uit door middel van de disallow! Lijkt me verstandig dit aan te passen, daar je op deze manier niet bepaald kundig over komt.

  2. Joris schreef:

    @Roald Craenen
    Bedankt voor de correctie! Copy Paste foutje, ik heb deze zojuist aangepast.

    Heb jij verder nog tips?

Geef een reactie