Eine robots.txt-Datei, die im Stammverzeichnis Ihrer Website gespeichert ist, teilt Web-Robots wie Suchmaschinen-Spiders mit, welche Verzeichnisse und Dateien sie crawlen dürfen. Die Verwendung einer robots.txt-Datei ist einfach, aber es gibt einige Dinge, die Sie beachten sollten:
- Blackhat-Webroboter ignorieren Ihre robots.txt-Datei. Die häufigsten Typen sind Malware-Bots und -Roboter, die nach E-Mail-Adressen suchen.
- Einige neue Programmierer schreiben Robots, die die Datei robots.txt ignorieren. Dies geschieht normalerweise aus Versehen.
- Jeder kann Ihre robots.txt-Datei sehen. Sie werden immer als robots.txt bezeichnet und immer im Stammverzeichnis der Website gespeichert.
- Wenn jemand auf eine Datei oder ein Verzeichnis verweist, das von Ihrer robots.txt-Datei von einer Seite ausgeschlossen wird, die nicht von ihrer robots.txt-Datei ausgeschlossen wird, finden die Suchmaschinen dies möglicherweise trotzdem.
Verwenden Sie keine robots.txt-Dateien, um wichtige Informationen auszublenden. Stattdessen sollten Sie wichtige Informationen hinter sicheren Kennwörtern hinterlegen oder ganz aus dem Internet lassen.
So verwenden Sie diese Beispieldateien
Kopieren Sie den Text aus dem Beispiel, der dem gewünschten Zweck am nächsten kommt, und fügen Sie ihn in Ihre robots.txt-Datei ein. Ändern Sie den Roboter, das Verzeichnis und die Dateinamen entsprechend Ihrer bevorzugten Konfiguration.
Zwei grundlegende Robots.txt-Dateien
User-Agent: *Nicht zulassen: / Diese Datei besagt, dass jeder Roboter ( User-Agent: *), der darauf zugreift, sollte jede Seite der Website ignorieren ( Nicht zulassen: /). User-Agent: *Nicht zulassen: Diese Datei besagt, dass jeder Roboter ( User-Agent: *), auf die zugegriffen wird, darf jede Seite der Website sehen ( Nicht zulassen:). Sie können dies auch tun, indem Sie Ihre robots.txt-Datei leer lassen oder gar keine auf Ihrer Website haben. User-Agent: *Nicht zulassen: / cgi-bin /Nicht zulassen: / temp / Diese Datei besagt, dass jeder Roboter ( User-Agent: *), der darauf zugreift, sollte die Verzeichnisse / cgi-bin / und / temp / ( Nicht zulassen: / cgi-bin / Nicht zulassen: / temp /). User-Agent: *Nicht zulassen: /jenns-stuff.htmNicht zulassen: /private.php Diese Datei besagt, dass jeder Roboter ( User-Agent: *), der darauf zugreift, sollte die Dateien /jenns-stuff.htm und /private.php ( Nicht zulassen: /jenns-stuff.htm Nicht zulassen: /private.php). Benutzeragent: Lycos / x.xNicht zulassen: / Diese Datei besagt, dass der Lycos-Bot ( Benutzeragent: Lycos / x.x) ist an keiner Stelle der Site erlaubt ( User-Agent: *Nicht zulassen: /User-Agent: GooglebotNicht zulassen: Diese Datei verbietet zunächst alle Roboter wie oben, und lässt dann den Googlebot explizit zu ( User-Agent: Googlebot) haben Zugriff auf alles ( Besser ist es, eine sehr umfassende User-Agent-Zeile wie User-Agent: * zu verwenden, Sie können jedoch so genau sein, wie Sie möchten. Denken Sie daran, dass Roboter die Datei in der richtigen Reihenfolge lesen. Wenn also in den ersten Zeilen alle Roboter blockiert werden und später in der Datei heißt, dass alle Roboter Zugriff auf alles haben, haben die Roboter Zugriff auf alles. Wenn Sie nicht sicher sind, ob Sie die Datei "robots.txt" richtig geschrieben haben, können Sie die Webmaster-Tools von Google verwenden, um Ihre Datei "robots.txt" zu überprüfen oder eine neue zu schreiben. Bestimmte Verzeichnisse vor Robotern schützen
Bestimmte Seiten vor Robotern schützen
Verhindern, dass ein bestimmter Roboter auf Ihre Site zugreift
Nur einen bestimmten Roboterzugriff zulassen
Kombinieren Sie mehrere Zeilen, um genau die gewünschten Ausschlüsse zu erhalten