첫째, PyQuery은 무엇인가?
PyQuery 라이브러리는 매우 강력하고 유연한 웹 분석 라이브러리입니다.
공식 웹 사이트 주소 : http://pyquery.readthedocs.io/en/latest/
두, PyQuery 기본 라이브러리 사용
HTML = '' ' <div> <UL> <LI 클래스 = "아이템 0"> 첫 번째 항목 <LLI> <LI 클래스 = "항목 1"> <A href="link2.html"> 번째 항목 </ A> <LLI> <LI 클래스 = "0 아이템 활성"> <A href="link3.html"> <스팬 클래스 = "굵은"> 번째 항목 </ SPAN> </A> </ 리> <LI 클래스 = "항목-1 활성"> <A의 href="link4. html"> 제 항목 </A> </ 리> <LI 클래스 = "아이템 0"> <A의 제 href="link5.html"> 항목 </A> </ 리> </ UL> </ DIV> '' '
1. 초기화
# 초기화 문자열 에서 pyquery의 가져 오기 pyquery PQ AS HTML = "" DOC = PD (HTML) 인쇄 (DOC ( ' 리 ' )) # 초기화 된 URL 에서 pyquery의 가져 오기 PQ AS pyquery HTML = "" DOC = PQ (URL = ' HTTPS : //cuiqingcai.com ') 인쇄 (DOC ('제목 ' )) #의 파일 초기화 에서 pyquery의 가져 오기 PQ AS pyquery HTML = "" DOC= PQ (파일명 = "demo.html ') 인쇄 (문서 ('리 '))
2.CSS 선택 - 태그를 가져옵니다
발 pyquery의 수입 PQ 등 PyQuery 문서 = PD (HTML) #의 子元素 항목 = 문서 ( ' .list ' ) LIS = items.find ( ' 리 ' ) LIS = items.children () LIS = items.children ( ' .active는 ' ) 인쇄 (LIS) # 父元素 항목 = 문서 ( ' .list ' ) 컨테이너 = items.parents () 인쇄 , 용기 부모 = items.parents를 ( '.wrap ' ) 인쇄 (상위) # 兄弟元素 리 = 문서 ( ' .list.item-0.active ' ) 인쇄 (li.siblings ()) 프린트 (li.siblings ( ' .active는 ' ))
3.CSS 선택기 - 속성을 가져
발 pyquery의 수입 PQ 등 PyQuery 문서 = PD (HTML) = 문서 ( ' .item 0.active-A를 ' ) 인쇄 (a) 인쇄 (a.attr.href) 인쇄 (a.attr ( ' HREF ' )
4. 가져 오기 내용
발 pyquery의 수입 PQ 등 PyQuery 문서 = PD (HTML) = 문서 ( ' .item 0.active-A를 ' ) 인쇄 (a) 인쇄 (a.text ())
5. 가져 오기 HTML
발 pyquery의 수입 PQ 등 PyQuery 문서 = PD (HTML) 리 = 문서 ( ' .item-0.active ' ) 인쇄 (리튬) 인쇄 (li.html ())