Le protocole robots est un fichier texte placé dans le répertoire racine du site Web, indiquant aux moteurs de recherche quel contenu peut être analysé;
le rôle du protocole robots:
1) guider les araignées des moteurs de recherche pour explorer la colonne ou le contenu spécifié;
2) la révision du site Web ou l'optimisation de l'url Bloquer les liens qui ne sont pas adaptés aux moteurs de recherche lors de l'écriture;
3) Bloquer les liens morts et les pages d'erreur 404;
4) Bloquer les pages sans signification et sans contenu;
5) Bloquer les pages en double;
6) Bloquer les pages que vous ne souhaitez pas inclure;
7) Guidez les araignées Prenez le plan du site;
8) Bloquez les gros fichiers, images et vidéos sur le site pour enregistrer le haut débit et augmenter la vitesse;
Syntaxe et caractères génériques:
1) User-agent: définit le moteur de recherche;
2) Disallow: définit les pages ou répertoires
que les araignées ne sont pas autorisés à explorer ; 3) Autoriser: définit les pages ou les répertoires que les araignées sont autorisés à explorer;
4) $ correspond aux caractères à la fin de l'URL ;
5) * correspond à 0 ou plusieurs caractères arbitraires;
Écriture de fichier:
1) User-agent: * représente
ici tous les types de moteurs de recherche; (Google: Googlebot, Baidu: Baiduspider, MSN: MSNbot, Yahoo: Slurp) 2) Disallow: / admin / interdit l'exploration sous le répertoire admin Tous les répertoires; 3) Disallow: / admin interdit l'exploration de /admin.html, /adminset.html, /admin/abc.html; 4) Disallow: /admin/.html interdit l'exploration de tous les suffixes html dans le répertoire admin Fichiers (y compris les sous-répertoires);
5) Interdire: / ? Interdire l'exploration de toutes les URL contenant des points d'interrogation;
6) Interdire: /.jpg$ interdire l'exploration de toutes les images au format .jpg;
7) Interdire: / ab / abc.html interdit l'exploration du fichier abc.html sous le fichier ab;
8) Autoriser: / abc / autorise l'exploration de tous les répertoires sous le répertoire abc;
9) Autoriser: / tmp autorise l'exploration du répertoire tmp;
10) Autoriser: .html $ permet l'exploration de pages Web avec html comme suffixe URL;
11) Autoriser: .gif $ permet l'exploration d'images au format gif dans les pages Web;
12) Plan du site: le plan du site indique au robot d'exploration que cette page est un plan de site;
Exemple:
1) User-agent: *
Disallow: / admin /
Disallow: / abc /
Remarque: il est interdit à tous les moteurs de recherche d'explorer les répertoires et sous-répertoires admin et abc;
2) User-agent: *
Allow: / admin / seo /
Disallow: / admin /
Remarque: il est interdit à tous les moteurs de recherche d'explorer le répertoire et les sous-répertoires admin, mais le
répertoire seo sous le répertoire admin peut être analysé ; (Allow doit être à l'avant, Disallow est écrit à l'arrière)
3) User-agent: *
Disallow: / abc / .htm $
Remarque: Il est interdit à tous les moteurs de recherche d'explorer l'url avec le suffixe .htm dans le répertoire et les sous-répertoires abc;
4) User-agent: *
Disallow: / ? *
Remarque: Y a-t-il un moteur de recherche à explorer? La page;
5) le User-Agent: Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: / GIF $
Disallow: / PNG $
Disallow: /.bmp$
Remarque: interdire à tous les moteurs de recherche d'explorer toutes les images;
6 ) User-agent: *
Interdire: / dossier1 /
User-agent: Mediapartners-Google
Allow: / folder1 /
Remarque: tous les moteurs de recherche ne sont pas autorisés à explorer le dossier1, mais les robots Mediapartners-Google peuvent
afficher des annonces AdSense sur la page ;
7) User-agent: *
Disallow: / abc * /
Remarque: il est interdit à tous les moteurs de recherche d'explorer tous les répertoires et sous-répertoires commençant par abc;
Autres attributs:
1) Spécifiez le numéro de version du protocole du robot
: Version du robot: Version 2.0
2) Les moteurs de recherche peuvent explorer l'URL spécifiée uniquement pendant la période spécifiée. Heure de
visite: 0100-1300 Autoriser l'accès entre 1 h et 3 h du matin
3 ) Fréquence limite de lecture d'URL
Taux de requête: 40 / 1m 0800-1300 Entre 8 heures et 13 heures, visitez la
balise Meta Robots à une fréquence de 40 fois par minute :
<meta name="Robots" content="all|none|index|noindex|follow|nofollow">
Description de la propriété:
1) tout: le fichier sera récupéré et le lien sur la page peut être interrogé; la valeur par défaut est tout;
2) aucun: le fichier ne sera pas récupéré et le lien sur la page ne pourra pas être récupéré;
3) index: le fichier Sera récupéré;
4) follow: le lien sur la page peut être récupéré;
5) noindex: le fichier n'est pas récupéré;
6) nofollow: le lien sur la page n'est pas récupéré;
utilisation combinée:
1)可以抓取本页且可以顺着本页继续索引其他链接
<meta name="robots" content="index,follow">
也可以写成
<meta name="robots" content="all">
2)不可以抓取本页但可以顺着本页继续索引其他链接
<meta name="robots" content="noindex,follow">
3)可以抓取本页但不可以顺着本页继续索引其他链接
<meta name="robots" content="index,nofollow">
4)不可以抓取本页且不可以顺着本页继续索引其他链接
<meta name="robots" content="noindex,nofollow">
也可以写成
<meta name="robots" content="none">