de file robots.txt : toestaan/weigeren wat zoekmachines op een website mogen indexeren Zonder de file 'robots.txt' indexeren zoekmachines (bv. Google en Bing) meestal alle pagina's die er op een website te vinden zijn. Wil je dat een deel van die pagina's niet geindexeerd wordt maak dan gebruik van de file 'robots.txt'. D.m.v. de file robots.txt laat je zoekmachines weten welke pagina’s je liever niet wilt laten indexeren. En ook welke zoekmachines je (eventueel) helemaal buiten de deur wilt houden. Met de file robots.txt scherm je bepaalde delen van je website af. Het geeft ook een betere structuur aan de website en zoekmachine vinden dat prettig.
Zelf de file robots.txt maken is makkelijk. Open een willekeurige ASCII editor, bv. Kladblok.
Met de regel 'User-agent: Piet' zeg je welke acties er voor de zoekmachine 'Piet' zijn toegestaan en welke acties er niet zijn toegestaan.
Alles wat niet expliciet 'disallowed' is dat wordt geindexeerd.
Als je dat wilt dan kun je alle zoekmachines weigeren om welke pagina dan ook te indexeren. Zet dan de volgende twee regels in de file robots.txt:
Als alle zoekmachines alles mogen indexeren laat je de optie Disallow gewoon leeg (of maak de hele file leeg, of gebruik de file robots.txt helemaal niet):
Om een specifieke robot uit te sluiten:
Een specifieke robot alles toestaan:
Als je de file 'klantenbestand.html' niet wilt laten indexeren door Google maak dan in de file robots.txt de volgende twee regels:
Om de volgende drie subdirectories uit te sluiten voor alle robots:
Uiteraard kunt u de robots.txt voorzien van het juiste pad naar uw XML-sitemap. # Default robots.txt file # # Block Wordpress plugins User-Agent: * Disallow: /wp-content/plugins/ # yandex User-agent: Yandex Disallow: / # MSN User-agent: MSNbot Disallow: / # wowrack User-agent: reverse.wowrack.com Disallow: / #Baiduspider User-agent: Baiduspider Disallow: / # Images niet indexen User-agent: Googlebot Disallow: /*.gif Er zijn nog veel meer opties om bepaalde delen van jouw bestanden niet te tonen aan de robots van de zoekmachines. Een groot deel hiervan en een uitleg erbij vind je hier. Let op:
|