파이썬 파충류 - - 도로의 데이터 PyQuery 라이브러리

첫째, PyQuery은 무엇인가?

PyQuery 라이브러리는 매우 강력하고 유연한 웹 분석 라이브러리입니다.

공식 웹 사이트 주소 : http://pyquery.readthedocs.io/en/latest/

 두, PyQuery 기본 라이브러리 사용

HTML = '' ' 
<div> 
  <UL> 
    <LI 클래스 = "아이템 0"> 첫 번째 항목 <LLI> 
    <LI 클래스 = "항목 1"> <A href="link2.html"> 번째 항목 </ A> <LLI> 
    <LI 클래스 = "0 아이템 활성"> <A href="link3.html"> <스팬 클래스 = "굵은"> 번째 항목 </ SPAN> </A> </ 리> 
    <LI 클래스 = "항목-1 활성"> <A의 href="link4. html"> 제 항목 </A> </ 리> 
    <LI 클래스 = "아이템 0"> <A의 제 href="link5.html"> 항목 </A> </ 리> 
  </ UL> 
</ DIV> 
'' '

1. 초기화

# 초기화 문자열 
에서 pyquery의 가져 오기 pyquery PQ AS 
HTML = "" 
DOC = PD (HTML)
 인쇄 (DOC ( ' ' )) 

# 초기화 된 URL 
에서 pyquery의 가져 오기 PQ AS pyquery 
HTML = "" 
DOC = PQ (URL = ' HTTPS : //cuiqingcai.com ') 
인쇄 (DOC ('제목 ' )) 

#의 파일 초기화 
에서   pyquery의 가져 오기   PQ AS pyquery 
HTML = "" 
DOC= PQ (파일명 = "demo.html ') 
 인쇄 (문서 ('리 '))  

2.CSS 선택 - 태그를 가져옵니다

 pyquery의 수입 PQ 등 PyQuery 
문서 = PD (HTML) 

#의 子元素 
항목 = 문서 ( ' .list ' ) 
LIS = items.find ( ' ' ) 

LIS = items.children () 
LIS = items.children ( ' .active는 ' )
 인쇄 (LIS) 

# 父元素 
항목 = 문서 ( ' .list ' ) 
컨테이너 = items.parents ()
 인쇄 , 용기 

부모 = items.parents를 ( '.wrap ' )
 인쇄 (상위) 

# 兄弟元素 
리 = 문서 ( ' .list.item-0.active ' )
 인쇄 (li.siblings ())
 프린트 (li.siblings ( ' .active는 ' ))

3.CSS 선택기 - 속성을 가져

 pyquery의 수입 PQ 등 PyQuery 
문서 = PD (HTML) = 문서 ( ' .item 0.active-A를 ' )
 인쇄 (a)
 인쇄 (a.attr.href)
 인쇄 (a.attr ( ' HREF ' )

4. 가져 오기 내용

 pyquery의 수입 PQ 등 PyQuery 
문서 = PD (HTML) = 문서 ( ' .item 0.active-A를 ' )
 인쇄 (a)
 인쇄 (a.text ())

5. 가져 오기 HTML

 pyquery의 수입 PQ 등 PyQuery 
문서 = PD (HTML)  = 문서 ( ' .item-0.active ' )
 인쇄 (리튬)
 인쇄 (li.html ())

추천

출처www.cnblogs.com/Iceredtea/p/11294266.html