¿Qué es el protocolo de robots? La escritura y función de robots.txt en el sitio web

El nombre completo del protocolo de Robots (también conocido como protocolo de rastreador, protocolo de robot, etc.) es "Protocolo de exclusión de robots". El sitio web le dice al motor de búsqueda qué páginas se pueden rastrear y qué páginas no se pueden rastrear a través del protocolo de Robots.
Método de escritura de archivos
Agente de usuario: * Aquí representa todos los tipos de motores de búsqueda, que es un comodín Disallow: /admin/ La definición aquí es para prohibir el rastreo
de directorios bajo el directorio de administración
el directorio requerido El directorio
Disallow: /ABC/ se define aquí para prohibir el rastreo del directorio bajo el directorio ABC
Disallow: /cgi-bin/.htm
prohíbe el acceso a todas las URL con el sufijo ". Tabla de contenido).
No permitir: /
?* Prohibir el acceso a todas las URL que contengan signos de interrogación (?) en el sitio web. No permitir: /.jpg$ Prohibir el rastreo de
todas las imágenes en formato .jpg en la página web.
archivo .html.
Permitir: /cgi-bin/ La definición aquí es permitir rastrear el directorio bajo el directorio cgi-bin
Permitir: /tmp La definición aquí es permitir rastrear todo el directorio de tmp Permitir
: .htm$ Solo permitir el acceso a la sufijo ".htm" URL.
Permitir: .gif$ Permitir el rastreo de páginas web e imágenes en formato gif
Mapa del sitio: el mapa del sitio le dice al rastreador que esta página es un mapa del sitio

Supongo que te gusta

Origin blog.csdn.net/qq_43148113/article/details/88916403
Recomendado
Clasificación