Pythonの爬虫類:ドキュメントツリートラバースBS4

html_doc = ''」
<HTML> <HEAD> <TITLE>ヤマネの物語</ TITLE> </ HEAD> 
<BODY> 
<Pクラス= "姉妹"> <B> $、37 </ B> </ P> 

<Pクラス=「物語」ID =「P」>一度3人の妹があった時間に。そしてそれらの名前はなかった
<a href="http://example.com/elsie" class="sister">エルシー</a>に、
<HREF = "http://example.com/lacie"クラス= "姉妹"ID ="リンク2" >レイシー</a>と
<a href="http://example.com/tillie" class="sister" id="link3"> Tillieする</a>。
そして、彼らは井戸の底に住んでいます。</ p> 

<Pクラス= "物語"> ... </ P>


(タイプ(soup.html)の)印刷
印刷(soup.a)
印刷(soup.p)

#2 *****、ラベル名の取得
を印刷(soup.a.name)

#3 *****を取得ラベルのプロパティ
印刷(soup.a.attrs) 
は、すべてのプロパティのラベルを取得する
(soup.a.attrs [「のhref」])印刷

#*****。4、取得されたテキストのラベル
印刷(soup.p.テキスト)

#5、ネストされたSELECT 
印刷(soup.html.body.p)

#6、子ノード、子孫ノード
を印刷(soup.p.children) 戻りイテレータオブジェクトの
印刷(リスト(soup.p.children))

#7、親、祖先ノードの
印刷(soup.b.parent)
印刷(soup.b.parents)
印刷(一覧(soup.b.parents))

#8、兄弟姉妹(兄弟:兄弟)
印刷(スープ。 a)の
#は次の兄弟ノードを取得します
印刷(soup.a.next_sibling) 
すべての次の兄弟ノードを取得し、発電機を返します
印刷(soup.a.next_siblings)
印刷(一覧(soup.a.next_siblings)) 
兄弟取得
印刷(soup.a.previous_sibling)

リターン上のすべての兄弟ノードは、発電機である#取得し
た印刷(リスト(soup.a.previous_siblings) )

  

おすすめ

転載: www.cnblogs.com/Auraro997/p/11128184.html