homeComputers

inleiding

inhoudsopgave

laatste wijzigingen

backup

bit byte deci hex

e-mail duidelijk

gijzeling

html codes

html kleur-namen

modem-router

nas

privacy

robots.txt

vakantie

veiligheid

wachtwoorden

Android

apps

operating systems

Android Apple Linux Windows

Linux

opdrachten

software

Windows

google

herstelpunt

hosts

pictogram afstand

register

sneltoetsen

software

systeemeisen

tips-trics

vlc

wisselbestand

de file robots.txt :   toestaan/weigeren wat zoekmachines op een website mogen indexeren

Zonder de file 'robots.txt' indexeren zoekmachines (bv. Google en Bing) meestal alle pagina's die er op een website te vinden zijn. Wil je dat een deel van die pagina's niet geindexeerd wordt maak dan gebruik van de file 'robots.txt'. D.m.v. de file robots.txt laat je zoekmachines weten welke pagina’s je liever niet wilt laten indexeren. En ook welke zoekmachines je (eventueel) helemaal buiten de deur wilt houden. Met de file robots.txt scherm je bepaalde delen van je website af. Het geeft ook een betere structuur aan de website en zoekmachine vinden dat prettig.

Zelf de file robots.txt maken is makkelijk. Open een willekeurige ASCII editor, bv. Kladblok. Met de regel 'User-agent: Piet' zeg je welke acties er voor de zoekmachine 'Piet' zijn toegestaan en welke acties er niet zijn toegestaan.
Voor het buitensluiten van elke file en/of subdirectory is een aparte 'disallow' nodig. Het volgende op één regel werkt dus niet: 'Disallow: /cgi-bin/ /tmp/'.
Binnen één opdracht mogen geen blanco (lege) regels staan, want blanco regels dienen om meerdere opdrachten te scheiden.
Regular expression worden niet ondersteund. De '*' in het veld User-agent is een speciaal teken om aan te geven 'elke robot'.
Let ook op het verschil tussen de / aan het einde van een regel. 'Disallow: /cgi-bin' geeft aan dat het de hele folder betreft. 'Disallow: /setup/' geeft aan dat het alleen om de index (index.htm of index.php) gaat in deze map.

User-agent: * Disallow: /setup/ Disallow: /cgi-bin Disallow: /images/ Disallow: /photos/ Disallow: /dealers/ Sitemap: http://www.testdomein.nl/sitemap.xml Alles wat niet expliciet 'disallowed' is dat wordt geindexeerd. Als je dat wilt dan kun je alle zoekmachines weigeren om welke pagina dan ook te indexeren. Zet dan de volgende twee regels in de file robots.txt:
         User-agent: *
         Disallow: /
		 
Als alle zoekmachines alles mogen indexeren laat je de optie Disallow gewoon leeg (of maak de hele file leeg, of gebruik die file helemaal niet):
         User-agent: *
         Disallow:
		 
Om een specifieke robot uit te sluiten:
         User-agent: BadBot
         Disallow: /
		 
Een specifieke robot alles toestaan:
         User-agent: Google
         Disallow:
		 
Als je de file 'klantenbestand.html' niet wilt laten indexeren door Google maak dan in de file robots.txt de volgende twee regels:
         User-agent: Googlebot
         Disallow: /klantenbestand.html
		 
Om de volgende drie subdirectories uit te sluiten voor alle robots:
         User-agent: *
         Disallow: /cgi-bin/
         Disallow: /tmp/
         Disallow: /piet/
		 
Uiteraard kunt u de robots.txt voorzien van het juiste pad naar uw XML-sitemap.
         User-agent: *
         Disallow: /setup/
         Disallow: /cgi-bin
         Disallow: /images/
         Disallow: /photos/
         Disallow: /dealers/
         Sitemap: http://www.mijndomein.nl/sitemap.xml
		 
De file robots.txt zou er dus als volgt uit kunnen zien:
         # Default robots.txt file
         #
         # Block Wordpress plugins
         User-Agent: *
         Disallow: /wp-content/plugins/

         # yandex
         User-agent: Yandex
         Disallow: /

         # MSN
         User-agent: MSNbot
         Disallow: /

         # wowrack
         User-agent: reverse.wowrack.com
         Disallow: /

         #Baiduspider
         User-agent: Baiduspider
         Disallow: /

         # Images niet indexen
         User-agent: Googlebot
         Disallow: /*.gif
		 

Er zijn nog veel meer opties om bepaalde delen van jouw bestanden niet te tonen aan de robots van de zoekmachines. Een groot deel hiervan en een uitleg erbij vind je hier.

Let op:
Er zijn zoekmachines die de file robots.txt negeren. Dat zijn dan meestal malware robots die het web scannen op veiligheidslekken. Ook programma's die emailadressen zoeken (email address harvesters) negeren de file. De file /robots.txt op je website is voor iedereen te zien. Iedereen kan dus bekijken welke beperkingen jij aan zoekmachines hebt opgelegd.

Deze pagina is voor het laatst bijgewerkt op 30 oktober 2014.

Colofon      Disclaimer      Zoeken      Copyright © 2002-  G. Speek