파이썬 파충류 수집

파이썬 파충류 수집

최근 프로젝트 사이트의 일부 페이지를 수집 할 필요가 이전에 취득 파이썬, 일부 녹음을 할 수있는 다수의 연구와는 지금 매우 인기가해야 할 PHP를 사용하고 있지만했다.

데이터 수집은 내용에 따라 웹 페이지의 내용을 얻을하고 필요한 데이터를 필터링하는 데 필수적입니다,

파이썬의 장점은 속도, 멀티 스레딩, 높은 동시성, 그것은 많은 데이터를 수집 할 수 있으며, PHP는 단점이 비교되고, 파이썬 휠과 겉으로 PHP 코드 라이브러리 전체 및 파이썬은 약간의 문제 지점을 설치, 토스 오랜 시간 동안.

python3 설치, 연결을 참조하십시오

https://www.cnblogs.com/mengzhilva/p/11059329.html

도구 편집기 :

PyCharm : 파이썬 전용 편집기의 좋은 사용, 당신은 지원 창을 컴파일하고 실행할 수 있습니다

파이썬 라이브러리 모음을 사용 :

매우 강력한 페이지의 콘텐츠를 얻기 위해 사용, 지원 HTTPS, 사용자 로그인 정보 : 요청

LXML : HTML 콘텐츠를 수집하고, 찾을 매우 유연하고 사용하기 쉽고 간단하지만 사용을 많이, 쉽게 찾을 수 API 문서를 구문 분석하는 데 사용됩니다.

pymysql : 작업 MySQL의 가입이는 수집 된 정보는 데이터베이스에 저장됩니다 말했다 않았을 것이다.

기본적으로이 세 가지 컬렉션 페이지를 지원할 수

설치 코드 :

주사위와 전화 코드를 설치 :

pymysql 설치 PIP
PIP하는 요청이 설치
LXML를 설치 핍

 데이터 수집 :

코드 및 인쇄 결과의 컬렉션 :

# 코딩 = UTF-8 # 설정 페이지 중국어 왜곡 해결 부호화 
오기 다시
가져 pymysql의
가져 오기 요청
MYDB 가져 오기 * 행을
가져 etree의 LXML로부터
액세스 할 # 아날로그 브라우저
헤더 = {
'는 User-- 에이전트' '모질라 / 5.0 (윈도우를 상기 U- ; 윈도우 NT 6.1; EN-US; RV : 1.9.1.6) 게코 / 20091201 파이어 폭스 / 3.5.6 '
}
#requests 페이지 얻을
https://www.cnblogs.com/mengzhilva/'(= requests.get를 respose ' =) 헤더를 헤더
함량 = respose.text 번호 콘텐츠 취득
HTML = etree.HTML (콘텐츠) #에 의해 포맷 LXML
부호화 = 결과 = etree.tostring (HTML을 "UTF-8") #의 출력 부호 해석 대상
타이틀 = HTML. XPath는 ( '// 사업부의 [에 @ 클래스 = "일"] // DIV [클래스 = "postTitle는"@]는 / 텍스트 () //') #는 해당 데이터 찾을
URL을 = html.xpath를 ( '// DIV [ @ 클래스 = "일"] // DIV [의 @ 클래스 = "postTitle은 "] A / HREF @ ') #은 해당 데이터를 찾을 //
인쇄 (제목)
인쇄 (URL)
I = 1.
제목에 발을위한 :
URL = html.xpath ( '// 사업부의 [에 @ 클래스 = "날"] ['+ 형식 (I) + '] // DIV [@class = "postTitle은"]은 /에 // @ href를 ') # 주기적인 체크리스트 주소
인쇄 (발)
인쇄 (URL)
전에 별도의 기능은 페이지의 콘텐츠를 가져 오기 위해 호출 할 수 있습니다 #을
내가 + = 1

추천

출처www.cnblogs.com/mengzhilva/p/11059768.html