Verschiedene Schreibmethoden und Beispiele für Roboterprotokolldokumente

Das Roboterprotokoll ist eine Textdatei, die im Stammverzeichnis der Website abgelegt wird und Suchmaschinen mitteilt, welche Inhalte gecrawlt werden können.
Die Rolle des Roboterprotokolls:
   1) Führen Sie Suchmaschinenspinnen zum Crawlen der angegebenen Spalte oder des angegebenen Inhalts;
   2) Überarbeitung der Website oder URL-Optimierung Blockieren Sie Links, die für Suchmaschinen beim Schreiben nicht geeignet sind.
   3) Blockieren Sie tote Links und 404 Fehlerseiten.
   4) Blockieren Sie bedeutungslose und inhaltslose Seiten.
   5) Blockieren Sie doppelte Seiten.
   6) Blockieren Sie Seiten, die Sie nicht einschließen möchten.
   7) Führen Sie Spinnen Holen Sie sich die Sitemap.
   8) Blockieren Sie große Dateien, Bilder und Videos auf der Site, um Breitband zu sparen und die Geschwindigkeit zu erhöhen.

Syntax und Platzhalter:
   1) Benutzeragent: Definiert die Suchmaschine;
   2)
   Nicht zulassen : Definiert Seiten oder Verzeichnisse , die Spinnen nicht crawlen dürfen . 3) Zulassen: Definiert Seiten oder Verzeichnisse, die Spinnen crawlen dürfen.
   4) $ stimmt mit den Zeichen am Ende der URL überein ;
   5) * entspricht 0 oder mehr beliebigen Zeichen;

Dateischreiben:
   1) User-Agent: * repräsentiert





hier alle Suchmaschinentypen; (Google: Googlebot, Baidu: Baiduspider, MSN: MSNbot, Yahoo: Slurp)    2) Nicht zulassen: / admin / Crawlen unter dem Admin-Verzeichnis verbieten Alle Verzeichnisse;    3) Nicht zulassen: / admin verbietet das Crawlen von /admin.html, /adminset.html, /admin/abc.html;    4) Nicht zulassen: /admin/.html verbietet das Crawlen aller HTML-Suffixe im Administratorverzeichnis Dateien (einschließlich Unterverzeichnisse);

   5) Nicht zulassen: / ? Das

   Crawlen aller URLs mit Fragezeichen verbieten ; 6) Nicht zulassen: /.jpg$ Das Crawlen aller Bilder im JPG-Format verbieten;

   7) Nicht zulassen: / ab / abc.html verbietet das Crawlen der abc.html-Datei unter der ab-Datei;

   8) Zulassen: / abc / ermöglicht das Crawlen aller Verzeichnisse im abc-Verzeichnis;

   9) Zulassen: / tmp ermöglicht das Crawlen des tmp-Verzeichnisses;

   10) Zulassen: .html $ ermöglicht das Crawlen von Webseiten mit HTML als Suffix-URL;

   11) Zulassen: .gif $ ermöglicht das Crawlen von Bildern im GIF-Format auf Webseiten;

   12) Sitemap: Sitemap teilt dem Crawler mit, dass diese Seite eine Sitemap ist.

Beispiel:
1) Benutzeragent: *
Nicht zulassen: / admin /
Nicht zulassen: / abc /
Hinweis: Es ist allen Suchmaschinen untersagt, die Verzeichnisse und Unterverzeichnisse von admin und abc zu crawlen.

2) Benutzeragent: *
Zulassen: / admin / seo /
Disallow: / admin /
Hinweis: Es ist allen Suchmaschinen untersagt, das Admin-Verzeichnis und die Unterverzeichnisse zu crawlen. Das SEO-
Verzeichnis unter dem Admin-Verzeichnis kann jedoch gecrawlt werden . (Allow muss vorne sein, Disallow wird hinten geschrieben.)

3) User-Agent: *
Disallow: / abc / .htm $
Hinweis: Allen Suchmaschinen ist es untersagt, die URL mit dem Suffix .htm im Verzeichnis abc und in den Unterverzeichnissen zu crawlen.

4) Benutzeragent: *
Nicht zulassen: /
? *
Hinweis: Gibt es eine Suchmaschine zum Crawlen? Die Seite;

5) der User-Agent: Baiduspider
Nicht
zulassen: /.jpg$ Nicht zulassen: /.jpeg$ Nicht
zulassen: / GIF $ Nicht zulassen:
/ PNG $
Nicht zulassen: /.bmp$
Hinweis: Verbieten Sie allen Suchmaschinen, alle Bilder zu crawlen .

6 ) User-Agent: *
Disallow: / folder1 /
Benutzeragent: Mediapartners-Google
Zulassen: / Ordner1 /
Hinweis: Es ist allen Suchmaschinen untersagt, Ordner1 zu crawlen, aber Mediapartners-Google-Roboter können
AdSense-Anzeigen auf der Seite anzeigen.

7) Benutzeragent: *
Nicht zulassen: / abc * /
Hinweis: Allen Suchmaschinen ist es untersagt, alle Verzeichnisse und Unterverzeichnisse zu crawlen, die mit abc beginnen.

Andere Attribute:
1) Geben Sie die Versionsnummer des Roboterprotokolls an: Roboterversion
: Version 2.0
2) Suchmaschinen können die angegebene URL nur im angegebenen Zeitraum
crawlen. Besuchszeit: 0100-1300 Zugriff zwischen 1 Uhr morgens und 3 Uhr morgens zulassen
3 ) Begrenzung der URL
-Lesefrequenz Anforderungsrate: 40 / 1m 0800-1300 Besuchen Sie zwischen 8 und 13 Uhr das
Robots-Meta-Tag mit einer Häufigkeit von 40 Mal pro Minute :

   <meta name="Robots" content="all|none|index|noindex|follow|nofollow">

Eigenschaftsbeschreibung:
1) Alle: Die Datei wird abgerufen, und der Link auf der Seite kann abgefragt werden. Die Standardeinstellung ist Alle.

2) Keine: Die Datei wird nicht abgerufen, und der Link auf der Seite kann nicht abgerufen werden.

3) Index: Die Datei Wird abgerufen;

4) folgen: der Link auf der Seite kann abgerufen werden;

5) noindex: die Datei wird nicht abgerufen;

6) nofollow: der Link auf der Seite wird nicht abgerufen;

kombinierte Verwendung:

	   1)可以抓取本页且可以顺着本页继续索引其他链接
	       <meta name="robots" content="index,follow">
	        也可以写成
	        <meta name="robots" content="all">
	        
	    2)不可以抓取本页但可以顺着本页继续索引其他链接
	      <meta name="robots" content="noindex,follow">
           
        3)可以抓取本页但不可以顺着本页继续索引其他链接
         <meta name="robots" content="index,nofollow">
            
        4)不可以抓取本页且不可以顺着本页继续索引其他链接
            <meta name="robots" content="noindex,nofollow">
            也可以写成
            <meta name="robots" content="none">

Ich denke du magst

Origin blog.csdn.net/qq_36129701/article/details/104789902
Empfohlen
Rangfolge