Robots.txt? Wat, Waarom & Hoe

Ben je wel eens onderweg geweest terwijl de Tomtom er mee stopte?
Zo je, dan weet je precies hoe Google Bot zich voelt als hij op een website komt waar geen of een slechte robots.txt is.
Een goede robots.txt zorgt er namelijk voor dat een zoekmachine robot, precies weet waar hij wel en waar hij niet mag komen op jouw website.
Hij kan dan veel sneller en efficiënter jouw website crawlen waardoor jouw belangrijke pagina’s veel sneller in de top van Google komen.
En dat levert natuurlijk weer méér bezoekers op én, niet onbelangrijk, méér geld in het laatje.
Hoog tijd dus om alle ins en outs van robots.txt te ontdekken!
Inhoud
Wat is Robots.txt?
Robots.txt is een tekstbestand op jouw webserver die aangeeft waar een zoekmachine wel en niet mag komen op jouw website en zorgt er dus voor dat zoekmachine bots jouw website snel en efficiënt kunnen indexeren.
Zoekmachines gebruiken namelijk zoekrobots die websites scannen en opslaan in een database.
Zonder robots.txt bestand gaan deze bots ervan uit dat ze alles mogen scannen.
En das nie altijd handig!
Er zijn namelijk ook pagina’s die je liever niet in de zoekresultaten wilt terugzien.
Hoewel de meeste zoekmachines zich houden aan de richtlijnen van de robots.txt, zijn er ook zoekmachines die dit niet doen!
Heb je geheime informatie op de website die niet voor iedereen bestemd is, dan is het robots.txt bestand niet de juiste manier om deze informatie af te schermen.
robots.txt voorbeeld van bol.com
Waarom je robots.txt moet gebruiken!
Het gebruik van robots.txt heeft de volgende voordelen:
1. Bespaar servercapaciteit
Iedere pagina die bezocht wordt, zorgt voor een belasting van de servercapaciteit.
Het maakt hierbij niet uit of het een zoekmachine robot of een echte bezoeker betreft.
Én,
omdat zoekrobots vaak duizenden pagina’s per dag scannen, is het natuurlijk zonde als deze pagina’s niet in de zoekmachine terecht moeten komen.
Zorg er dus voor dat alle ‘onbelangrijke’ pagina’s worden uitgesloten mbv het robots.txt bestand.
Hoe beter dit bestand is ingesteld, hoe efficiënter de servercapaciteit wordt gebruikt en hoe sneller jouw pagina in de zoekmachine index verschijnt.
2. Bespaar Crawl Budget
Wat is crawl budget?
Zoekmachines gebruiken bots die dagelijks een bepaald aantal pagina’s scannen van een website.
Dit aantal pagina’s noemt men een "crawl budget’.
Hoeveel pagina’s er gescand worden is afhankelijk van de grootte en populariteit van de website en of er vaak wijzigingen aan de website plaatsvinden.
Grote en populaire websites met veel wijzigingen krijgen een hoog crawl budget en kleine websites met weinig bezoekers krijgen een laag budget.
Als een zoekrobot een website scant, bekijkt het eerst de robots.txt
Is er geen robots.txt, dan bezoekt de bot elke pagina die hij kan vinden.
Dus ook de onbelangrijke pagina’s, zoals een login pagina, een winkelwagentje, filter pagina’s, etc.
Zonde natuurlijk, want de bot had in die tijd ook belangrijke pagina’s kunnen indexeren.
Hoe minder belangrijke pagina’s er bezocht mogen worden volgens de robots.txt, hoe meer tijd er dus is voor de belangrijke pagina’s en hoe sneller deze pagina’s geïndexeerd worden.
3. SEO & robots.txt
Hoewel het crawl budget geen invloed heeft op de waarde van de pagina’s, zorgt het er dus wel voor dat jouw pagina’s sneller geupdate worden in de zoekmachines en dus voor betere posities (als het pagina verbeteringen betreft :-).
Ook kun je de locatie van het sitemap.xml bestand aangeven in de robots.txt, indien deze niet op de standaardlocatie staat.
Hoe werkt het robots.txt bestand?
Iedere keer als een zoekrobot een website bezoekts, wordt eerst het robots.txt bestand geraadpleegd.
De zoekrobot weet dan precies waar hij wel en waar hij niet moet komen en weet dus ook welke links hij wel of niet moet volgen.
Het zijn echter instructies, dus een zoekrobot kan hiervan afwijken.
Ook kan de zoekrobot hier de locatie van de sitemap vinden, in het geval de lokatie anders is als de standaardlocatie.
Hoe ziet een robots.txt bestand er uit?
Een robots.txt bestand is als volgt opgebouwd:
User-agent: *
Allow: /directory
Disallow: *.pdf
Crawl-delay: 10
User-agent is de naam van de zoekrobot.
Een * betekent dat de regel voor alle zoekrobots geldt.
Allow betekent dat de zoekrobot de pagina’s die aan deze regel voldoen mogen bezoeken.
In het voorbeeld mogen de zoekrobots alleen pagina’s bezoeken met /directory in de url.
Disallow betekent dat de zoekrobot deze pagina’s niet mag bezoeken.
In het voorbeeld mogen de zoekrobots geen pdf bestanden bezoeken en indexeren.
Crawl-delay is het aantal seconden dat een zoekrobot moet wachten voordat een nieuwe pagina bezocht wordt.
Let op, niet alle zoekrobots (Google bijvoorbeeld) houden zich aan deze instructie!
Je kunt robots.txt bestanden zo ingewikkeld maken als je wilt, door bijvoorbeeld regular expressions te gebruiken, maar kijk vooral eens bij de concurrentie hoe zij het hebben ingesteld.
Om de robots.txt te bekijken van andere websites, voeg je gewoon /robots.txt achter de domeinnaam (https://www.bol.com/robots.txt).
User Agents
Er zijn ontzettend veel user agents of crawlers.
Op https://www.robotstxt.org/db.html kun je een uitgebreide database vinden met user agents.
Je kunt dus verschillende instructies geven aan verschillende user agents.
Op https://www.bol.com/robots.txt kun je zien dat Bol.com een aantal afwijkende instructies aan bepaalde robots meegeeft:
User-Agent: Baiduspider
Disallow: /
User-Agent: omgili
Disallow: /
User-Agent: Slurp
Crawl-delay: 20
User-agent: rogerbot
Crawl-delay: 2
User-agent: YandexBot
Crawl-delay: 10
Sitemap vermelden in jouw robots.txt
Normaal staat de sitemap in de ‘root’ van jouw webserver en is de sitemap te vinden op https://jouwwebsite.nl/sitemap.xml
Heb je een afwijkende locatie voor jouw sitemap, dan kun je de url van de sitemap aangeven in het robots.txt bestand.
Zoals in dit voorbeeld:
User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap1.xml
Sitemap: https://www.example.com/sitemap2.xml
De zoekmachines kunnen dan snel jouw sitemap vinden en zo, zo efficiënt mogelijk jouw website indexeren.
Voor Google is het ook verstandig om jouw sitemap aan te melden via Google Search Console.
Robots.txt waarschuwingen
Hoewel een goede robots.txt jouw seo werk een boost kan geven, zijn er ook mogelijke problemen die er door veroorzaakt kunnen worden als je even niet goed oplet!
Een fout zit in een klein hoekje
Een zoekrobot is een echte muggenzifter.
Elke komma of punt die verkeerd staat, wordt verkeerd geïnterpreteerd en zal leiden tot indexatie problemen.
Zorg dus dat je jouw kop dr bijhoudt en controleer de wijzigingen zorgvuldig.
Met WebSite Auditor kan dit heel eenvoudig.
Richtlijnen en géén verboden!
Zoals al eerder gezegd, geeft een robots.txt bestand richtlijnen. De meeste zoekmachines houden zich eraan, maar er zijn ook zoekmachines die er niets op uit doen. Deze zul je dus op een andere manier moeten blokkeren als je dat wilt.
Pagina’s kunnen nog geïndexeerd worden
Een robots.txt bestand zorgt er alleen voor dat bepaalde pagina’s niet bezocht mogen worden door de zoekmachines.
Als er een link naar deze pagina op een andere pagina van de website staat die wel geïndexeerd mag worden, kan de pagina nog wel worden opgenomen in de zoekmachine index. De pagina wordt dan niet gescand, maar de URL komt wel in de Google index. Alleen de URL wordt dan getoond, zonder de meta description.
Let op de bestandsgrootte
De maximale bestandsgrootte van het robots.txt bestand voor Google is 500 kibibytes (512 kilobytes).
Alles wat hier buiten valt, wordt genegeerd.
Heb je een mega grote website, zorg dan je regels samenvoegt dmv regular expressions of plaats pagina’s in bepaalde categorieën.
Robots.txt en WebSite Auditor
Een foutje in de robots.txt is snel gemaakt en kan grote consequenties hebben.
Met WebSite Auditor kun je snel en eenvoudig jouw robots.txt checken en zien of er belangrijke pagina’s geblokkeerd worden.
- Ga naar Pagina’s > Website Tools > Robots.txt
- Klik op Haal van Server om het robots.txt bestand op te halen.
- Bekijk de robots.txt regels.
- Bekijk welke pagina’s wel of niet bezocht mogen worden door welke robots.
Je kunt mbv WebSite Auditor ook eenvoudig jouw robots.txt wijzigen en deze exporteren of direct updaten via FTP.
Wanneer gebruik je noindex, nofollow of robots.txt?
Robots.txt gebruik je wanneer je wilt voorkomen dat bepaalde pagina’s bezocht worden door de zoekmachines.
Je kunt zo crawlbudget besparen en ervoor zorgen dat de andere "belangrijke" pagina’s relatief vaker en eerder worden bezocht door de zoekmachines.
Het zorgt er NIET voor dat bepaalde pagina’s niet geïndexeerd worden!
Als je bepaalde pagina’s niet in de zoekmachines wilt hebben, gebruik dan de noindex tag in de header van de pagina.
Wil je dat bepaalde links op een pagina niet gevolgd worden door de zoekmachines, dan kun je de nofollw tag gebruiken in de header van de pagina.
Robots.txt voor WordPress
De robots.txt hieronder is speciaal geoptimaliseerd voor WordPress, er van uit gaande dat:
- Jouw admin sectie niet gecrawld mag worden.
- Jouw interne zoekresultaten pagina’s niet gecrawld mogen worden.
- Jouw tag en auteur pagina’s niet gecrawld mogen worden.
- Jouw 404 pagina niet gecrawld mag worden.
User-agent: *
Disallow: /wp-admin/ #blokkeert toegang tot admin sectie
Disallow: /wp-login.php #blokkeert toegang tot admin sectie
Disallow: /search/ #blokkeert toegang tot interne zoekresultaat pagina’s
Disallow: *?s=* #blokkeert toegang tot interne zoekresultaat pagina’s
Disallow: *?p=* #blokkeert toegang tot pagina’s waarbij de permalinks niet werken
Disallow: *&p=* #blokkeert toegang tot pagina’s waarbij de permalinks niet werken
Disallow: *&preview=* #blokkeert toegang tot preview pagina’s
Disallow: /tag/ #blokkeert toegang tot tag pagina’s
Disallow: /author/ #blokkeert toegang tot auteur pagina’s
Disallow: /404-error/ #blokkeert toegang tot 404 pagiga’s
Sitemap: https://www.voorbeeld.nl/sitemap_index.xml
Deze robots.txt werkt voor de meeste WordPress websites, maar je moet het altijd aanpassen aan jouw situatie en testen!
Robots.txt voor Magento
De robots.txt hieronder is speciaal geoptimaliseerd voor Magento en zorgt ervoor dat interne zoekresultaten pagina’s, login pagina’s, sessie nummers en filter pagina’s niet beschikbaar zijn voor crawlers.
User-agent: *
Disallow: /catalogsearch/
Disallow: /search/
Disallow: /customer/account/login/
Disallow: /*?SID=
Disallow: /*?PHPSESSID=
Disallow: /*?price=
Disallow: /*&price=
Disallow: /*?color=
Disallow: /*&color=
Disallow: /*?material=
Disallow: /*&material=
Disallow: /*?size=
Disallow: /*&size=
Sitemap: https://www.voorbeeld.nl/sitemap_index.xml
Deze robots.txt werkt voor de meeste Magento websites, maar je moet het altijd aanpassen aan jouw situatie en testen!
Bronnen
https://tobefound.nl/blog/wat-is-robots-txt/, https://www.contentkingapp.com/academy/robotstxt/#best-practices
https://www.robotstxt.org/orig.html, https://tool.motoricerca.info/robots-checker.phtml
https://developers.google.com/search/docs/advanced/robots/intro