줄 바꿈을 일치 - 파이썬 파충류를

일치하는 파충류 학습 콘텐츠를 만나기 전에 발견되면 랩 존재, 기록에 귀찮게하지 않습니다 다음, 방법을 찾아 다음과 일치하지, 나중에 인터넷에서 오늘 갑자기 그런 상황, 생각, 또는 기록이 발생하는 그것에 대해.

 

아래 그림과 같이 그 당시, 홈 블로그 CSDN 크롤링 할 때

 

 

소스 코드를 읽고 발견 당신이 사용하는 경우 <a href="....来爬取的话,这样得到的会有许多其他的网址,并不全是我需要得博文,但是用<div class="title"> .... 다시 등장 랩, 랩 경기에 맞게하지만 난하지 않습니다

re.compile () 함수는 (.) re.DOTALL, 그것은 정규 표현식 점을 만들 수있는 기호 매개 변수를 호출을 포함하여 줄 바꿈을 포함한 모든 문자와 일치한다.

PAT = ' <div 클래스 = "제목">. *? <H2>. *? <A href를는 = "(. *?)"대상 = "_ 빈" '이 때 # 1. 캔 매칭 포함 랩 포함 모든 문자 
RST1 = re.compile (PAT, re.DOTALL) .findall (데이터)

 

 

 

가져올 urllib.request
 수입 
URL을 = " http://www.csdn.net/ " 데이터 = urllib.request.urlopen (URL) .read (). 디코딩 ( " UTF-8 " ) 인쇄 (렌 (데이터)) 특허 = ' <div 클래스 = "제목">. *? <H2>. * <? A HREF = ". (*?)"대상 = "_ 빈" ' RST1 = re.compile (특허, re.DOTALL). findall은 (데이터)를 인쇄 (LEN (RST1)) 에 대한범위 (0, 렌 (RST1)) 프린트 (RST1 [I]) 의 데이터 = urllib.request.urlopen (RST1 [I]) 판독 ()를..디코드 ( ". UTF-8 , (가) 무시 " ) urllib.request.urlretrieve (RST1 [I], " D : \\ \\ studyPython 파이썬 \\ \\ 러 블로그 \\하여 \\ URLLIB 학습 학습 " . + STR (I + 1) + " .html 중에서 " ) 인쇄 ( " 에 크롤 링 : " 나는 + 1, " 게시 된 블로그의 성공 " ) 인쇄 ( " 홈 최종 크롤링 블로그 " )

 

 이 시점 크롤링 성공에서

 

추천

출처www.cnblogs.com/dong973711/p/11923953.html