道路のデータ - Pythonの爬虫類 - PyQueryライブラリー

まず、PyQueryは何ですか?

PyQueryライブラリも非常に強力で柔軟なウェブ解析するライブラリです。

公式ウェブサイトのアドレス:http://pyquery.readthedocs.io/en/latest/

 二、PyQuery基本的なライブラリの使用

HTML = ''」
の<div> 
  <UL> 
    <LIクラス= "項目-0">最初の項目<LLI> 
    <LIクラス= "項目1"> <a href="link2.html"> 2番目の項目</ > <LLI> 
    <LIクラス= "項目-0アクティブ"> <a href="link3.html"> <スパンクラス= "ボールド">第三の項目</スパン> </a>の</ LI> 
    <LIクラス= "項目-1活性"> <a href="link4。html">第項目する</a> </ LI> 
    <LIクラス= "項目-0">の<a href="link5.html">第項目する</a>ます。</ li> 
  </ ulの> 
</ div> 
'」'

1.初期化

初期化文字列
から pyqueryのインポートpyquery PQ AS 
HTML = "" 
DOC = PD(HTML)
 印刷(DOC(' ' )) 

初期化されたURL 
から pyqueryのインポートPQ AS pyquery 
HTML = "" 
DOC = PQ(URL = " HTTPS ://cuiqingcai.com ')
印刷(DOC('タイトル" )) 

ファイルの初期化
から   pyqueryのインポート  PQ AS pyquery 
HTML = "" 
DOC= PQ(ファイル名= 'demo.html') 
 プリント(DOC( 'リー'))  

2.CSSセレクタ - タグを取得します。

pyqueryのインポートPQとしてPyQuery 
DOC = PD(HTML) 

子元素 
アイテム= DOC(' .LIST ' 
LIS = items.find(' リー' 

LIS = items.children()
LIS = items.children(' .active ' プリント(LIS) 

父元素 
商品= DOC(' .LIST ' 
コンテナ = items.parents()
 プリント(容器)
 = items.parents('.wrap ' プリント(親)

兄弟元素 
のLi = DOC(' .list.item-0.active ' プリント(li.siblings())
 プリント(li.siblings(' .active '))

3.CSSセレクタ - プロパティを取得

pyqueryのインポートPQとしてPyQuery 
DOC = PD(HTML)
A = DOC(' .item-0.activeのA ' プリント(A)
 プリント(a.attr.href)
 プリント(a.attr(' HREF '

4.取得の内容

pyqueryのインポートPQとしてPyQuery 
DOC = PD(HTML)
A = DOC(' .item-0.active A ' プリント(A)
 プリント(a.text())

5.取得HTML

pyqueryのインポートPQとしてPyQuery 
DOC = PD(HTML)
のLi = DOC(' .item-0.active ' プリント(LI)
 プリント(li.html())

おすすめ

転載: www.cnblogs.com/Iceredtea/p/11294266.html