웹 크롤러 ----- 요청 라이브러리 소개

웹 크롤러 ----- 요청 라이브러리 소개

1. Requests.get ()은
requests.get (url )을 사용 합니다.
url : 얻을 URL 링크
의 응답 객체 속성은 다음과 같습니다.
여기에 사진 설명 삽입
r.encoding : 헤더에 문자셋이 존재하지 않는 경우 인코딩은 다음과 같습니다. ISO-8859-1로 간주
r. 명백한 인코딩
: 웹 콘텐츠에 따라 분석 된 인코딩 방법의 대략적인 흐름다음과 같습니다.
먼저 r.status_code
사용 하여 200을 반환 한 다음 r.text를 사용합니다. r.encoding r.apparent_encoding r .content
가 404 또는 기타 상황을 반환하는 것은 몇 가지 이유 때문입니다. 예외가 발생합니다.

2. 요청 라이브러리에는 다음과 같은 6 가지 예외가 있습니다.
여기에 사진 설명 삽입

3. HTTP 프로토콜 및 요청 라이브러리 방법

HTTP 프로토콜
URL 형식 http : // host [: port] [path]
호스트 : 유효한 인터넷 호스트 도메인 이름 또는 IP 주소
포트 : 포트 번호, 기본 포트는 80
경로 : 요청 리소스 경로

Requests
여기에 사진 설명 삽입
라이브러리 의 7 가지 주요 메소드 ①requests.request (method, url, ** kwargs)
메소드 : request 메소드
requests.request ( 'GET', url, ** kwargs)
requests.request ( 'HEAD', url, ** kwargs ))
requests.request ( 'POST', url, ** kwargs)
requests.request ( 'PUT', url, ** kwargs)
requests.request ( 'PATCH, url, ** kwargs)
requests.request ('DELETE ' , url, ** kwargs)
requests.request ( 'OPTIONS', url, ** kwargs)
url : 가져올 페이지의 URL 링크
** kwargs : 액세스를 제어하는 ​​매개 변수, 모두 선택적
매개 변수 : 사전 또는 바이트 시퀀스 , 매개 변수가 url
데이터에 추가됨에 따라 사전, 바이트 시퀀스 또는 파일 객체, 요청 내용으로
json : JSON 형식 데이터, 요청
헤더 의 내용으로 : 사전, HTTP 사용자 정의 헤더
쿠키 : 사전 또는 CookieJar, 쿠키 요청의
인증 : yuan 그룹, 지원 HTTP 인증 기능
파일 : 사전 유형, 파일 전송
시간 초과 : 시간 초과 시간 설정 (초)
프록시 : 사전 유형, 액세스 프록시 서버 설정, 로그인 인증을 추가 할 수 있습니다.
allow_redirects : True / False, 기본값은 True, 리디렉션 스위치
스트림 : True / False, 기본값은 True, 즉시 콘텐츠 다운로드 받기 스위치
확인 : True / False, 기본값 If True, SSL 인증서 전환
인증서를 인증합니다 . 로컬 SSL 인증서 경로
②requests.get (url, params = None, ** kwargs)
url : 가져올 페이지의 URL 링크
params : url, dictionary 또는 byte stream의 추가 매개 변수 format, Optional
** kwargs : 12 개의 제어 액세스 매개 변수 (①의 매개 변수를 제외하고 모두 동일)
③requests.head (url, ** kwargs)
url : 가져올 페이지의 URL 링크
** kwargs : 13 접근 매개 변수 제어
④requests.post (url, data = None, json = None, ** kwargs)
url : 획득 할 페이지의 URL 링크
데이터 : 사전, 바이트 시퀀스 또는 파일, 요청 내용
json : JSON 형식 데이터, 요청 내용
** kwargs : 접근을 제어하는 ​​11 개의 매개 변수
⑤requests.put (url, data = None, ** kwargs)
url : 획득 할 페이지의 URL 링크 데이터 : 사전, 바이트 시퀀스 또는 파일, 요청 내용
** kwargs : 12 제어 액세스 매개 변수
⑥requests.patch (url, data = None, ** kwargs)
url : 가져올 페이지의 URL 링크
데이터 : 사전, 바이트 시퀀스 또는 파일, 요청 내용
** kwargs : 12 개의 액세스 제어 매개 변수
⑦requests.delete (url, ** kwargs)
url : 삭제할 페이지의 URL 링크
** kwargs : 접근 제어를위한 13 개의 매개 변수

콘텐츠 참조 : https://www.icourse163.org/learn/BIT-1001870001?tid=1461055451#/learn/announce

추천

출처blog.csdn.net/qq_44921056/article/details/109008003