まず、PyQueryは何ですか?
PyQueryライブラリも非常に強力で柔軟なウェブ解析するライブラリです。
公式ウェブサイトのアドレス:http://pyquery.readthedocs.io/en/latest/
二、PyQuery基本的なライブラリの使用
HTML = ''」 の<div> <UL> <LIクラス= "項目-0">最初の項目<LLI> <LIクラス= "項目1"> <a href="link2.html"> 2番目の項目</ > <LLI> <LIクラス= "項目-0アクティブ"> <a href="link3.html"> <スパンクラス= "ボールド">第三の項目</スパン> </a>の</ LI> <LIクラス= "項目-1活性"> <a href="link4。html">第項目する</a> </ LI> <LIクラス= "項目-0">の<a href="link5.html">第項目する</a>ます。</ li> </ ulの> </ div> '」'
1.初期化
#初期化文字列 から pyqueryのインポートpyquery PQ AS HTML = "" DOC = PD(HTML) 印刷(DOC(' 李' )) #初期化されたURL から pyqueryのインポートPQ AS pyquery HTML = "" DOC = PQ(URL = " HTTPS ://cuiqingcai.com ') 印刷(DOC('タイトル" )) #のファイルの初期化 から pyqueryのインポート PQ AS pyquery HTML = "" DOC= PQ(ファイル名= 'demo.html') プリント(DOC( 'リー'))
2.CSSセレクタ - タグを取得します。
pyqueryのインポートPQとしてPyQuery DOC = PD(HTML) #の子元素 アイテム= DOC(' .LIST ' ) LIS = items.find(' リー' ) LIS = items.children() LIS = items.children(' .active ' ) プリント(LIS) #父元素 商品= DOC(' .LIST ' ) コンテナ = items.parents() プリント(容器) 親 = items.parents('.wrap ' ) プリント(親) #兄弟元素 のLi = DOC(' .list.item-0.active ' ) プリント(li.siblings()) プリント(li.siblings(' .active '))
3.CSSセレクタ - プロパティを取得
pyqueryのインポートPQとしてPyQuery DOC = PD(HTML) A = DOC(' .item-0.activeのA ' ) プリント(A) プリント(a.attr.href) プリント(a.attr(' HREF ')
4.取得の内容
pyqueryのインポートPQとしてPyQuery DOC = PD(HTML) A = DOC(' .item-0.active A ' ) プリント(A) プリント(a.text())
5.取得HTML
pyqueryのインポートPQとしてPyQuery DOC = PD(HTML) のLi = DOC(' .item-0.active ' ) プリント(LI) プリント(li.html())