homeComputers

inleiding

inhoudsopgave

laatste wijzigingen

over mij,  html

over mij,  o.s.

Multi-platform

ascii tekens

backups extern

backups soorten

bit byte deci hex

botnet

browsers

cloud

cookies

cookies, zo hoort het

ddos aanval

datagraaiers

email

e-mail duidelijk

e-mail etiquette

e-mail gehackt

e-mail html

e-mail imap-pop

e-mail thunderbird

e-mail web-client

e-mail xs4all-freedom

emoticon

extensies

filemanagers

flash

ftp uploaden

gijzeling

google

google alerts

google temmen

google ik ga akkoord

google maps

hardware

hoax

hosting

html

html basis

html codes

html emoijs

html kleur-namen

html5

ip-adres

javascript

laad- datakabel

links, diverse

microsoft belt u

modem - router

nas

phishing

porno-sites bezocht

privacy

privacy tips

robots.txt

search-engines

smiley

spoofing

ssd schijf

ssl-certificaat

usb-c

usb kabel

vakantie

veiligheid

vpn

wachtwoorden

wifi

wifi gehackt

Android

agenda

apps

contacts

praktijk

Operating systems

Android  Apple  Linux
MS-DOS  ReactOS  Windows

Linux

agenda

automatisch aanmelden

backups

back in time

contacts

distro's

notepadqq

rescue usb

shortcuts

software

software tov windows

thunderbird

timeshift

virus

MS-DOS

ms-dos opdrachten

ReactOS

waarom

Windows

agenda

backups

1 timeline

2 robocopy

3 realtime

command-line opdrachten

contacts

herstelpunt

hibernate

hosts

icon spacing

onzichtbare files

pictogram afstand

register

rescue usb

sneltoetsen windows 7

sneltoetsen windows 8

sneltoetsen windows 10

sneltoetsen windows 11

software

systeemeisen

tips-trics

toetsenbord-instelling

virus-scanner

visuele effecten

vlc

windows 10 exit

windows 10 updates

wisselbestand

de file robots.txt :   toestaan/weigeren wat zoekmachines op een website mogen indexeren

Zonder de file 'robots.txt' indexeren zoekmachines (bv. Google en Bing) meestal alle pagina's die er op een website te vinden zijn. Wil je dat een deel van die pagina's niet geindexeerd wordt maak dan gebruik van de file 'robots.txt'. D.m.v. de file robots.txt laat je zoekmachines weten welke pagina’s je liever niet wilt laten indexeren. En ook welke zoekmachines je (eventueel) helemaal buiten de deur wilt houden. Met de file robots.txt scherm je bepaalde delen van je website af. Het geeft ook een betere structuur aan de website en zoekmachine vinden dat prettig.

Zelf de file robots.txt maken is makkelijk. Open een willekeurige ASCII editor, bv. Kladblok. Met de regel 'User-agent: Piet' zeg je welke acties er voor de zoekmachine 'Piet' zijn toegestaan en welke acties er niet zijn toegestaan.
Voor het buitensluiten van elke file en/of subdirectory is een aparte 'disallow' nodig. Het volgende op één regel werkt dus niet: 'Disallow: /cgi-bin/ /tmp/'.
Binnen één opdracht mogen geen blanco (lege) regels staan, want blanco regels dienen om meerdere opdrachten te scheiden.
Regular expression worden niet ondersteund. De '*' in het veld User-agent is een speciaal teken om aan te geven 'elke robot'.
Let ook op het verschil tussen de / aan het einde van een regel. 'Disallow: /cgi-bin' geeft aan dat het de hele folder betreft. 'Disallow: /setup/' geeft aan dat het alleen om de index (index.htm of index.php) gaat in deze map.

Alles wat niet expliciet 'disallowed' is dat wordt geindexeerd. Als je dat wilt dan kun je alle zoekmachines weigeren om welke pagina dan ook te indexeren. Zet dan de volgende twee regels in de file robots.txt:
     User-agent: *
     Disallow: /

Als alle zoekmachines alles mogen indexeren laat je de optie Disallow gewoon leeg (of maak de hele file leeg, of gebruik de file robots.txt helemaal niet):
     User-agent: *
     Disallow:

Om een specifieke robot uit te sluiten:
     User-agent: BadBot
     Disallow: /

Een specifieke robot alles toestaan:
     User-agent: Google
     Disallow:

Als je de file 'klantenbestand.html' niet wilt laten indexeren door Google maak dan in de file robots.txt de volgende twee regels:
     User-agent: Googlebot
     Disallow: /klantenbestand.html

Om de volgende drie subdirectories uit te sluiten voor alle robots:
     User-agent: *
     Disallow: /cgi-bin/
     Disallow: /tmp/
     Disallow: /piet/

Uiteraard kunt u de robots.txt voorzien van het juiste pad naar uw XML-sitemap.
     User-agent: *
     Disallow: /setup/
     Disallow: /cgi-bin
     Disallow: /images/
     Disallow: /photos/
     Disallow: /dealers
     Sitemap: https://www.mijndomein.nl/sitemap.xml

De file robots.txt zou er dus als volgt uit kunnen zien:
         # Default robots.txt file
         #
         # Block Wordpress plugins
         User-Agent: *
         Disallow: /wp-content/plugins/

         # yandex
         User-agent: Yandex
         Disallow: /

         # MSN
         User-agent: MSNbot
         Disallow: /

         # wowrack
         User-agent: reverse.wowrack.com
         Disallow: /

         #Baiduspider
         User-agent: Baiduspider
         Disallow: /

         # Images niet indexen
         User-agent: Googlebot
         Disallow: /*.gif
		 

Er zijn nog veel meer opties om bepaalde delen van jouw bestanden niet te tonen aan de robots van de zoekmachines. Een groot deel hiervan en een uitleg erbij vind je hier.

Let op:
Er zijn zoekmachines die de file robots.txt negeren. Dat zijn dan meestal malware robots die het web scannen op veiligheidslekken. Ook programma's die emailadressen zoeken (email address harvesters) negeren de file. De file /robots.txt op je website is voor iedereen te zien. Iedereen kan dus bekijken welke beperkingen jij aan zoekmachines hebt opgelegd.

Laatste wijziging: woensdag 5 januari 2022 Colofon  Disclaimer  Privacy  Zoeken  Copyright © 2002- G. Speek

  Einde van de pagina