Wat is robots.txt?

Wat is robots.txt?

Robots.txt is een tekstbestand wat instructies bevat voor crawlers. Crawlers zijn bots die informatie doorspitten op websites door middel van zoekmachines zoals Google. Daarnaast indexeren crawlers de pagina’s van je website voor hun database van zoekresultaten. In robots.txt kun je hier aanwijzingen voor geven.

Waarom is het zo belangrijk om robots.txt te gebruiken en hoe werkt het precies? Je leest het in dit artikel!

Robots.txt zorgt ervoor dat je zelf kunt beslissen welke pagina’s van je website wel of niet gecrawld mogen worden. Crawlen is het verkennen van websites door zoekmachinesoftware (bots) om de inhoud van een site te indexeren. Wanneer je website niet goed gecrawld kan worden, heeft dit grote gevolgen voor je vindbaarheid.

 

Hoe werkt robots.txt?

Wanneer een crawler van Google je website bezoekt, zoekt deze standaard naar het robots.txt bestand in de hoofdmap van je website. Het is dus belangrijk dat je de robots.txt hierin plaatst. De crawlbot communiceert in een taal die de Robots Exclusion Standard heet. Door middel van deze taal kun je met de crawlbot ‘praten’ en deze instructies geven. Je kunt hiermee aangeven welke pagina’s van de website de crawlbot mag bezoeken en mag indexeren.

Hieronder is de robots.txt van onze eigen website te zien. Je kunt van iedere website de robots.txt bekijken. Dit doe je door /robots.txt achter de URL te plaatsen. Om ervoor te zorgen dat een crawler een bepaalde pagina niet bezoekt, plaats je deze achter het kopje “Disallow”.

wat is robots.txt

Het eerste stukje code in het bestand is “User-agent: *”. Dit betekent dat elk type bot toegang krijgt tot de website. Het maakt dus niet uit aan welke zoekmachine deze bot gelinkt is.

Mocht je crawlen selectief toe willen staan voor bestanden, dan kun je dat op de volgende manier doen:

User-agent: *

Allow: /mapvoorbeeld/afbeelding.jpg

Disallow: /mapvoorbeeld

De crawler weet nu dat hij de map “mapvoorbeeld” niet mag crawlen, maar hij indexeert wel “afbeelding.jpg”.

Wat voor pagina’s kun je het beste uitsluiten?

1. Filters

Filters zijn erg handig voor de bezoeker van een website. Deze kan namelijk een grote selectie aan producten makkelijk terugdringen naar een kleine, relevantere selectie. Echter zorgen filters wel voor veel verschillende pagina’s die allemaal een aparte URL hebben. Deze URL’s zijn via zoekmachines bereikbaar, maar bevatten vrij weinig unieke content. Deze URL’s brengen de kwaliteit van je website naar beneden en dus kun je deze beter uitsluiten.

2. Paginering

Het opdelen van content over verschillende pagina’s zorgt ervoor dat er meerdere URL’s zijn voor één pagina. Dit kun je oplossen door alleen de eerste pagina mee te nemen in de robots.txt en de andere pagina’s uit te sluiten.

3. Zoekopdrachten

Veel websites hebben een zoekbalk. Vaak zie je de zoekopdrachten terug in de index van Google. Dit wil je liever niet, omdat deze pagina’s weinig toevoegen aan de inhoud van je website. Je kunt voorkomen dat deze pagina gecrawld worden door “Disallow: /catalogsearch/” toe te voegen aan je robots.txt.

4. Session ID’s

Wanneer je in een webshop artikelen in een winkelmandje plaatst, worden deze door de website onthouden. Dit gebeurt omdat er een uniek ID wordt gekoppeld aan je bezoeksessie. Dit ID zorgt ervoor dat er veel URL’s ontstaan met allemaal dezelfde content. Een aantal open source systemen gebruiken herkenbare session ID’s. Deze kun je door middel van een robots.txt uitsluiten.

Waar moet je rekening mee houden?

We hebben in deze blog besproken wat robots.txt is en hoe het precies in zijn werk gaat. Daarnaast zijn er ook nog een paar zaken waar je rekening mee moet houden wanneer je een robots.txt wilt gebruiken voor je eigen website. Hieronder vind je een aantal voorbeelden.

Iedereen kan bij je robots.txt bestand

Je robots.txt is niet alleen zichtbaar voor alle zoekmachines, maar voor iedereen die /robots.txt achter de URL van je website plaatst. Zorg er dus voor dat er geen belangrijke of persoonlijke informatie verwerkt is in je robots.txt.

Robots.txt is niet verplicht

Wanneer je niet zeker weet hoe je invulling moet geven aan een robots.txt bestand, kun je er ook voor kiezen om deze niet te gebruiken. Het is namelijk niet verplicht om een robots.txt op te stellen. Echter raden wij het wel aan om te voorkomen dat de crawlers bijvoorbeeld een testomgeving gaan indexeren.

Externe links ondermijnen je instructies

Wanneer je op bepaalde pagina’s op je website externe links hebt staan, kunnen deze pagina’s nog steeds in zoekresultaten weergegeven worden wanneer je deze hebt uitgesloten met robots.txt. Om dit te voorkomen kun je meta tags met indexeringsrichtlijnen gebruiken. Deze plaats je in de code van je website bij bepaalde content op je pagina waarvan je wilt dat deze niet gecrawld wordt.

Sommige bots houden geen rekening met robots.txt

Niet alle bots houden zich aan de regels wat betreft robots.txt. Het gebruiken van een robots.txt geeft dus geen garantie op het feit dat de uitgesloten pagina’s niet geïndexeerd worden. Een voorbeeld van een bot die zich vaak niet aan de regels houdt is een malware-bot. Deze bot scant het internet om zoveel mogelijk e-mailadressen te verzamelen voor bijvoorbeeld spammers. Het enige wat je hier tegen kunt doen is het IP-adres van deze malware-bot te blokkeren via je server of firewall.

Robots.txt heeft dus voor- en nadelen. Het is een handige tool om bepaalde pagina’s op je website uit te sluiten van crawling omdat deze persoonlijke informatie bevatten of omdat deze onbelangrijke informatie bevatten. Hoewel respectabele crawlers zoals Google zich houden aan de regels binnen je robots.txt, zijn er ook crawlers die dit niet doen. Een robots.txt is dus een richtlijn, maar geen garantie.

Robots.txt in relatie tot online marketing

Robots.txt heeft invloed op de vindbaarheid van je website. Het zorgt ervoor dat alleen relevante pagina’s worden gecrawld en geïndexeerd. Kun jij nog wel wat hulp gebruiken bij zoekmachine optimalisatie (SEO) of wil je er graag meer over weten? Vraag dan vrijblijvend een offerte aan!

Weten hoe je er verder voor zorgt dat je geen bezoekers mist? Download onze gratis SEO checklist!

Summary
Wat is robots.txt?
Article Name
Wat is robots.txt?
Description
In deze blog lees je wat robots.txt is, hoe robots.txt werkt en waarom robots.txt belangrijk is voor het indexeren van je website.✅
Author
Publisher Name
mark@ing
Publisher Logo
Nienke Jansen
nienke@markating.nl
Geen reactie's

Geef een reactie