Plusieurs méthodes d'écriture et exemples de documents de protocole robots

Le protocole robots est un fichier texte placé dans le répertoire racine du site Web, indiquant aux moteurs de recherche quel contenu peut être analysé;
le rôle du protocole robots:
   1) guider les araignées des moteurs de recherche pour explorer la colonne ou le contenu spécifié;
   2) la révision du site Web ou l'optimisation de l'url Bloquer les liens qui ne sont pas adaptés aux moteurs de recherche lors de l'écriture;
   3) Bloquer les liens morts et les pages d'erreur 404;
   4) Bloquer les pages sans signification et sans contenu;
   5) Bloquer les pages en double;
   6) Bloquer les pages que vous ne souhaitez pas inclure;
   7) Guidez les araignées Prenez le plan du site;
   8) Bloquez les gros fichiers, images et vidéos sur le site pour enregistrer le haut débit et augmenter la vitesse;

Syntaxe et caractères génériques:
   1) User-agent: définit le moteur de recherche;
   2) Disallow: définit les pages ou répertoires
   que les araignées ne sont pas autorisés à explorer ; 3) Autoriser: définit les pages ou les répertoires que les araignées sont autorisés à explorer;
   4) $ correspond aux caractères à la fin de l'URL ;
   5) * correspond à 0 ou plusieurs caractères arbitraires;

Écriture de fichier:
   1) User-agent: * représente





ici tous les types de moteurs de recherche; (Google: Googlebot, Baidu: Baiduspider, MSN: MSNbot, Yahoo: Slurp)    2) Disallow: / admin / interdit l'exploration sous le répertoire admin Tous les répertoires;    3) Disallow: / admin interdit l'exploration de /admin.html, /adminset.html, /admin/abc.html;    4) Disallow: /admin/.html interdit l'exploration de tous les suffixes html dans le répertoire admin Fichiers (y compris les sous-répertoires);

   5) Interdire: / ? Interdire l'exploration de toutes les URL contenant des points d'interrogation;

   6) Interdire: /.jpg$ interdire l'exploration de toutes les images au format .jpg;

   7) Interdire: / ab / abc.html interdit l'exploration du fichier abc.html sous le fichier ab;

   8) Autoriser: / abc / autorise l'exploration de tous les répertoires sous le répertoire abc;

   9) Autoriser: / tmp autorise l'exploration du répertoire tmp;

   10) Autoriser: .html $ permet l'exploration de pages Web avec html comme suffixe URL;

   11) Autoriser: .gif $ permet l'exploration d'images au format gif dans les pages Web;

   12) Plan du site: le plan du site indique au robot d'exploration que cette page est un plan de site;

Exemple:
1) User-agent: *
Disallow: / admin /
Disallow: / abc /
Remarque: il est interdit à tous les moteurs de recherche d'explorer les répertoires et sous-répertoires admin et abc;

2) User-agent: *
Allow: / admin / seo /
Disallow: / admin /
Remarque: il est interdit à tous les moteurs de recherche d'explorer le répertoire et les sous-répertoires admin, mais le
répertoire seo sous le répertoire admin peut être analysé ; (Allow doit être à l'avant, Disallow est écrit à l'arrière)

3) User-agent: *
Disallow: / abc / .htm $
Remarque: Il est interdit à tous les moteurs de recherche d'explorer l'url avec le suffixe .htm dans le répertoire et les sous-répertoires abc;

4) User-agent: *
Disallow: /
? *
Remarque: Y a-t-il un moteur de recherche à explorer? La page;

5) le User-Agent: Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: / GIF $
Disallow: / PNG $
Disallow: /.bmp$
Remarque: interdire à tous les moteurs de recherche d'explorer toutes les images;

6 ) User-agent: *
Interdire: / dossier1 /
User-agent: Mediapartners-Google
Allow: / folder1 /
Remarque: tous les moteurs de recherche ne sont pas autorisés à explorer le dossier1, mais les robots Mediapartners-Google peuvent
afficher des annonces AdSense sur la page ;

7) User-agent: *
Disallow: / abc * /
Remarque: il est interdit à tous les moteurs de recherche d'explorer tous les répertoires et sous-répertoires commençant par abc;

Autres attributs:
1) Spécifiez le numéro de version du protocole du robot
: Version du robot: Version 2.0
2) Les moteurs de recherche peuvent explorer l'URL spécifiée uniquement pendant la période spécifiée. Heure de
visite: 0100-1300 Autoriser l'accès entre 1 h et 3 h du matin
3 ) Fréquence limite de lecture d'URL
Taux de requête: 40 / 1m 0800-1300 Entre 8 heures et 13 heures, visitez la
balise Meta Robots à une fréquence de 40 fois par minute :

   <meta name="Robots" content="all|none|index|noindex|follow|nofollow">

Description de la propriété:
1) tout: le fichier sera récupéré et le lien sur la page peut être interrogé; la valeur par défaut est tout;

2) aucun: le fichier ne sera pas récupéré et le lien sur la page ne pourra pas être récupéré;

3) index: le fichier Sera récupéré;

4) follow: le lien sur la page peut être récupéré;

5) noindex: le fichier n'est pas récupéré;

6) nofollow: le lien sur la page n'est pas récupéré;

utilisation combinée:

	   1)可以抓取本页且可以顺着本页继续索引其他链接
	       <meta name="robots" content="index,follow">
	        也可以写成
	        <meta name="robots" content="all">
	        
	    2)不可以抓取本页但可以顺着本页继续索引其他链接
	      <meta name="robots" content="noindex,follow">
           
        3)可以抓取本页但不可以顺着本页继续索引其他链接
         <meta name="robots" content="index,nofollow">
            
        4)不可以抓取本页且不可以顺着本页继续索引其他链接
            <meta name="robots" content="noindex,nofollow">
            也可以写成
            <meta name="robots" content="none">

Je suppose que tu aimes

Origine blog.csdn.net/qq_36129701/article/details/104789902
conseillé
Classement