Pythonの爬虫類研究ノート(pyquery)

PQとしてpyqueryインポートpyQueryから

HTML = ''」
<DIV ID = "コンテナ">
<ULクラス= "リスト">
<LIクラス= "項目-0">最初の項目</ LI>
<LIクラス= "項目1"> <a href="link2.html">第項目する</a> </ LI>
<LIクラス= "項目-0アクティブ"> <a href="link3.html"> <スパンクラス=ボールド ">第三の項目</スパン> </a>の<LLI>
<LIクラス= "項目-1活性"> <a href="link4.html">第項目する</a> </ LI>
<LIクラス= "項目-0” > <A HREF = "link5.html">第五項目</a>の</ LI>
</ UL>
</ div>
「」」
DOC = PQ(HTML)#文字列は、オブジェクトのPQを初期化
(DOC(「リー」))を印刷#李着信ノード得るため

初期化:( '//baidu.comのhttps' URL =)#のURLリクエストとHTML DOC1 = PQを完了
印刷(DOC1( 'タイトル'))#取得

DOC2 = PQ(ファイル名= 'demo.html')#は、ローカルのテキストを初期化します
印刷(DOC2( 'リー'))

プリント次いで(DOC(「#容器.LISTリチウム」))選択されたコンテナのため#IDは、その内部ノードのLiクラスリストの全てを選択します
プリント(型(DOC( '#コンテナ.LIST李')))#pyquery类型

#一般的なクエリ機能、jQueryのと全く同じ機能を使用します
#find()メソッドは、子ノードを見つけるために、CSSセレクタを渡します
項目= DOC(「リスト」)#選択したノードクラスリスト
印刷(アイテム)
LIS = items.find(「リー」)#着信CSSセレクタ、その全ての内部ノードのLiすべての子孫ノードを選択
印刷(LIS)
#唯一の子ノードを見つけた場合
LIS1 = items.children(「アクティブ」)#子ノードが特定のノードを選択
印刷(LIS1)

#直接の親を探します
両親の場合、コンテナ= items.parent()#()すべての祖先ノードを見つけることです。私たちはCSSセレクタを渡すと、特定の祖先ノードを見つけることができます:(「***」)items.parents
印刷(コンテナ)
#兄弟
李= DOC( 'リスト.item-0.active')
プリント(li.siblings())#は、CSSセレクタに添加することができるが(」。活性)は、特定の兄弟ノードli.siblingsを選択

文字列のノード#に変換
印刷(P(I))

#トラバーサル、発電機
LIS1 = DOC( 'リー')。項目()
LIS1中のLiのために:
    プリント(LI、タイプ(LI))

#プロパティを取得します
= DOC( 'アイテム0.active A')
プリント(タイプ(a)参照)
印刷(a.attr( 'のhref'))#、a.attr.hrefに死亡プロパティ相当を取得します
#すべての統計情報
A1 = DOC( '')
a1.items()内のアイテムを:
    印刷(item.attr( 'のhref'))
    印刷(a1.text())#GETテキスト

LI1 = DOC( 'アイテム0.active')
印刷(li.html())#李取得HTMLコードは、すべてを取得トラバース、ノードに含まれています

アクティブプロパティli1.removeClass(「アクティブ」)を除去#リチウムのノード
li1.addClass(「アクティブ」)#李は、アクティブな属性ノードを追加しました
li1.attr( '名前'、 'リンク')#変更リンク名のname属性値
li1.text(「変更項目」)#ノード内容を変更
li1.html( '<スパン>変更項目</スパン>')#変更の<span>ノードコンテンツ

#ノードを削除します
li.remove(「」)#李は、ノード内のノードを削除します

#疑似クラスセレクタ
LI2 = DOC(「李:第一子」)#は、最初の李を選択します
LI3 = DOC(「リー:最後の子」)最後の選択#李
LI4 = DOC( 'リチウム:n番目の子(2)')#を選択する第2のLi
ノードの後に​​:( 'GT(2)のLi')#1 Liが第3ノードLI5 =ドキュメントを選択します
ノード:( 'n番目の子(2)李')#でも位置LI6 =ドキュメント
LI7 = DOC( 'Liは:(秒)を含んで')#1のLi 2番目のテキスト・ノードが含まれてい
















公開された33元の記事 ウォン称賛15 ビュー10000 +

おすすめ

転載: blog.csdn.net/qq_33360009/article/details/104237895
おすすめ