取り付けとインポートライブラリ美しいスープ
————Beautiful Soup库是解析、遍历、维护“标签树”的功能库
-
インストール:
勝利プラットフォーム:「管理者として実行」CMDbeautifulsoup4をインストールするPIP実行 -
インポートモジュール
もbeautifulsoup4又はBS4と呼ばれる美しいスープライブラリ、
参照として慣例、すなわち、主に使用されるクラスBeautifulSoup
from bs4 import BeautifulSoup 引入bs4库的BeautifulSoup类功能模块
import bs4 引入整个bs4库
二、分析の基本的な原則のBeautifulSoupクラス
パーサ、解析HTML / XMLタグツリーにより、必要な情報を得ることができます。
パーサ:
第三に、クラスの基本的な要素BeautifulSoup
四、HTMLコンテンツトラバーサル方法BS4ライブラリベース(コールモード..スープlabel属性)
- 木のダウンリンクタグを横断
遍历儿子节点
for child in soup.body.children:
print(child)
遍历子孙节点
for child in soup.body.descendants:
print(child)
- ツリーのタグを横断
ご注意ください:
3. パラレルツリートラバーサルタグ
ご注意ください:
五、HTMLベースのフォーマット出力BS4ライブラリ
- によって呼び出さBS4ライブラリ飾り立てる()メソッド(:soup.prettify())
- コーディングBS4ライブラリ
第六には、ライブラリはメソッドを提供見つけるBS4
<>。find_all(名、attrsに、再帰的に、文字列、** kwargsから)
-
名前:タグ名を取得するための文字列
-
ATTRS:検索文字列タグの属性値、属性検索を標識することができる
よう:ID =「」、クラス= 「」
-
これを再帰すべての子孫を取得するかどうか、○デフォルト値:
-
文字列:<> ... </>文字列の検索文字列領域
リストタイプ、メモリのルックアップの結果を返します。
ご注意ください:ルックアップ機能は、より一般的に使用されているので、そう: