Robots.txt wat is het en waarom is het belangrijk?
Het robots.txt bestand, ondanks dat je er misschien nog nooit van gehoord hebt, bestaat dit fenomeen al sinds 1994. Bedankt door de Nederlander Martijn Koster die het schreef nadat zijn website door een zoekmachine in het kwade daglicht werd gesteld. En dat is ook eigenlijk meteen het doel van het robots.txt bestand. Het vertelt de zoekmachine welke informatie wel en niet geïndexeerd mag worden. Een belangrijk dus van je technische SEO om meer controle te krijgen over je ranking. Maar wat betekent dat nu precies? Waarom is dat belangrijk en wat heb jij eraan?
Robots.txt wat is dat eigenlijk?
Robots.txt is zoals de extensie al doet vermoeden, een tekst-bestand. Niet meer niet minder en het staat in de root-folder van je domein. Voor zoekmachine optimalisatie (SEO) doeleinden is het echter een zeer krachtige en misschien ook iets meer technische tool. Via dit tekst-bestand kun je namelijk regelen welke delen van je website een zoekmachine (laten we hem maar meteen bij de naam noemen, Google) wel of niet mag indexeren.
Hoe werkt het?
In principe bestaat de basis van elke robots.txt uit twee onderdelen. Het eerste onderdeel is: “User-agent”. Dit gedeelte vertelt op welke spiderbots het van toepassing is. Elke zoekmachine heeft namelijk zijn eigen spiderbots en hebben deze ook een naam gegeven. Spiderbots worden ook wel spiders of crawlers genoemd. Google heeft, hoe kan het ook anders, de Googlebot en Bing de Bingbot. Maar van andere zoekmachines zijn de namen van de spiderbots net iets minder voor de hand liggend. Zo heet de spiderbot van Yahoo “Slurp”.
Het tweede onderdeel is het gedeelte waar je de uitsluiting aangeeft. Dit gebeurd met de tekst “Disallow”. Hier kun je aangeven welk gedeelte van je website je niet wilt laten indexeren. Dit kan zijn een of meerdere bepaalde mappen met bestanden op je url of specifieke bestanden.
Hoe stel je de robots.txt in?
Zoals al werd uitgelegd is het niet meer en niet minder dan een tekstbestand. Dit kun je maken in kladblok of Word en opslaan met de .txt extensie. De meest voorkomende robots.txt is dat je alle spiders toestaat om al jouw bestanden te indexeren. Dit ziet er als volgt uit:
Maar soms wil je dit juist helemaal niet. Als het bijvoorbeeld een website is die je alleen wilt laten gebruiken door mensen die afweten van het bestaan van de website. Hiervoor gebruik je de volgende instellingen:
En dan kun je natuurlijk ook specifieke uitsluitingen doen. Of zelfs aangeven wat zoekmachines wél mogen zien. Een voorbeeld hiervan is als er op jouw website een gastenboek is en je wilt niet dat dit geïndexeerd wordt. Het kan bijvoorbeeld zijn dat je het niet nodig vindt dat als mensen gevonden worden naar aanleiding van de reacties die zij bijvoorbeeld over jouw restaurant gegevens hebben. In dat geval kun je de map of het bestand dat betrekking heeft op het gastenboek uitsluiten. Wat ook vaak gebeurd is dat als je een WordPress website hebt, de ‘wp-admin’ omgeving wordt uitgesloten.
Klaar? Even testen via de Google Search Console.
Ondanks dat je robots.txt vaak maar uit twee regels tekst bestaat, is het altijd goed om het correct functioneren even te testen. Allereerst ga je het bestand uploaden naar de root-directory van je domein. Als het bestand hier eenmaal staat kun je via Google Search Console het bestand bekijken en testen. Je opent hiervoor je site binnen Google Search Console en gaat naar ‘Crawlen’. Hier selecteer je ‘robots.txt-tester’ in het submenu. Vervolgens wordt je robots.txt bestand ingelezen en zie je wat Google ziet als hij het bestand leest. Het belangrijkste hierbij is natuurlijk dat er geen fouten en waarschuwingen worden weergegeven door Google.