Wat is Robots.txt

Het robots.txt-bestand is een tekstbestand dat zich in de root van je website bevindt. Het is bedoeld om zoekmachinebots, zoals die van Google, instructies te geven over welke delen van je website ze wel of niet mogen crawlen. Met andere woorden: je vertelt zoekmachines wat ze mogen indexeren en wat niet. Dit bestand is onderdeel van het robots exclusion protocol en wordt vaak gebruikt om overbodige, gevoelige of irrelevante pagina’s uit de zoekresultaten te houden. Denk aan inlogpagina’s, interne zoekresultaten of testomgevingen.

Hoe werkt het?

Wanneer een zoekmachine jouw website bezoekt, kijkt de bot meestal als eerste naar het robots.txt bestand. Op basis van de instructies die daarin staan, beslist de bot of hij bepaalde pagina’s wel of niet zal crawlen. Een simpele instructie in een robots.txt kan er bijvoorbeeld zo uitzien:

User-agent: *

Disallow: /admin/

In dit voorbeeld geef je alle bots (User-agent: *) de opdracht om de map /admin/ niet te crawlen.

Belangrijk om te weten: een Disallow betekent alleen dat de bot de pagina niet bezoekt. Het voorkomt niet per se dat de pagina wordt opgenomen in de zoekresultaten, vooral als er externe links naartoe verwijzen. Wil je iets écht uit de index houden? Gebruik dan liever een noindex meta tag op de pagina zelf.

Tips voor het gebruik van robots.txt

Test je bestand altijd via Google Search Console om fouten te voorkomen.
Blokkeer geen belangrijke pagina’s per ongeluk, zoals je homepage of blog.
Gebruik robots.txt niet voor privacygevoelige informatie. Het bestand is openbaar en dus voor iedereen te bekijken.
Combineer het met meta tags voor maximale controle over wat er wel en niet geïndexeerd wordt.

Met een goed ingericht robots.txt-bestand houd je controle over de crawl-efficiëntie en zorg je ervoor dat zoekmachines focussen op wat daadwerkelijk belangrijk is.