로봇 프로토콜이란 무엇입니까? 웹사이트에서 robots.txt의 작성 및 기능

Robots 프로토콜(크롤러 프로토콜, 로봇 프로토콜 등이라고도 함)의 전체 이름은 "Robots Exclusion Protocol"입니다. 웹사이트는 로봇 프로토콜을 통해 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지를 검색 엔진에 알려줍니다.
파일 쓰기 방법
User-agent: * 여기에서 와일드카드인 모든 검색 엔진 유형을 나타냅니다. Disallow: /admin/ 여기서 정의는 admin 디렉토리 아래의 디렉토리 크롤링을 금지하는 것입니다. Disallow: /require/ 여기서 정의는 다음에서 크롤링을 금지하는 것입니다. 필수 디렉토리 Disallow: /ABC/ 디렉토리는 여기에서 ABC 디렉토리 아래의 디렉토리 크롤링을 금지하도록 정의됩니다. Disallow: /cgi-bin/.htm은 접미사 ". 목차)가 있는 모든 URL에 대한 액세스를 금지합니다. Disallow: /




?* 웹사이트에서 물음표(?)가 포함된 모든 URL에 대한 액세스 금지
Disallow: /.jpg$ 웹페이지에서 모든 .jpg 형식 이미지 크롤링 금지
Disallow:/ab/adc.html ab 폴더 adc에서 크롤링 금지 .html 파일.
허용: /cgi-bin/ 여기서 정의는 cgi-bin 디렉토리 아래의 디렉토리를 크롤링하도록 허용합니다.
허용: /tmp 여기서 정의는 tmp의 전체 디렉토리를 크롤링하도록 허용합니다.
허용: .htm$ 접미사 ".htm" URL.
허용: .gif$ 웹 페이지 및 gif 형식 이미지 크롤링 허용
사이트맵: 사이트맵은 크롤러에게 이 페이지가 사이트맵임을 알립니다.

Guess you like

Origin blog.csdn.net/qq_43148113/article/details/88916403