HTMLコンテンツBS4ライブラリに基づいて、組織や情報抽出方法(3)の方法を見つける - Pythonの爬虫類・ノート(5)抽出のWebクローラ

HTMLコンテンツBS4ライブラリに基づく方法を探す1

1.1 <>。Find_all()、再(正規表現ライブラリ)

 

(1)単一のパラメータ文字列

 

(2)パラメータリスト

 

(3)パラメータは、それはすべてのラベルの内容を返し、真であります

 

(4)に示す  Bの ようなB、体として、開始タグ。(使用再:正規表現ライブラリ)

インポート要求
 から BS4 輸入BeautifulSoup
 輸入

R = requests.get(" http://python123.io/ws/demo.html " 

デモ = r.text 

スープ = BeautifulSoup(デモ、" html.parser " のためのタグ soup.find_all(re.compile(' B ' )):
     プリント(tag.name)

(5)find_all中的 attrs:返回带有 attr属性值的 name标签

 

おすすめ

転載: www.cnblogs.com/douzujun/p/12241185.html