Webrace

Wildcards in robots.txt

Die Standardbefehle für die robots.txt sollten eigentlich klar sein:

Disallow: /datei/

weist die Robots an, das Verzeichnis datei nicht zu indexieren.
Ob das Verzeichnis datei nun im Root liegt oder selbst ein
Unterverzeichnis von einen anderem Hauptverzeichnis ist, spielt
keine Rolle.

Anders sieht es mit folgendem Code aus:

Disallow: /datei.html

Nur datei.html im Root wird von der Indexierung ausgeschlossen,
während /datei/datei.html weiterhin gecrawlt wird.

Wildcards

Mit Wilcards lassen sich mit einem Ausdruck in der robots.txt mehrere
Dateien auf einen Schlag für die Robots sperrren:

Disallow: /datei

Durch Weglassen des Slash am Ende ensteht schon die erste Wildcart:
Jede URL, die das Wort datei beinhaltet, wird von den Robots ignoriert.

Disallow:/*datei.html

Durch den Platzhalter (* = ein oder mehrere beliebige Zeichen) lassen
sich Wildcards noch verfeinern. Mit dem oben genannten Ausdruck, ist
der Zugriff auf datei.html in allen Ebenen des Projektes für Robots
verboten.

Meine liebste Wildcard ist diese:

Disallow: /*?*

Kommentar zu “Wildcards in robots.txt” abgeben!

Absenden? nein ja


« fuskers nachtrag Private Webcams »