美しいスープライブラリ--html / XMLパースページ

取り付けとインポートライブラリ美しいスープ

	————Beautiful Soup库是解析、遍历、维护“标签树”的功能库	
  1. インストール:
    勝利プラットフォーム:「管理者として実行」CMDbeautifulsoup4をインストールするPIP実行

  2. インポートモジュール
    もbeautifulsoup4又はBS4と呼ばれる美しいスープライブラリ、
    参照として慣例、すなわち、主に使用されるクラスBeautifulSoup


from bs4 import BeautifulSoup 引入bs4库的BeautifulSoup类功能模块

import bs4		引入整个bs4库

二、分析の基本的な原則のBeautifulSoupクラス

ここに画像を挿入説明
パーサ、解析HTML / XMLタグツリーにより、必要な情報を得ることができます。
パーサ:
ここに画像を挿入説明

第三に、クラスの基本的な要素BeautifulSoup

ここに画像を挿入説明
ここに画像を挿入説明

四、HTMLコンテンツトラバーサル方法BS4ライブラリベース(コールモード..スープlabel属性)

ここに画像を挿入説明

  1. 木のダウンリンクタグを横断

ここに画像を挿入説明

遍历儿子节点
for	child in soup.body.children:
	print(child)
	
遍历子孙节点
for	child in soup.body.descendants:
	print(child)

  1. ツリーのタグを横断

ここに画像を挿入説明

ご注意ください
ここに画像を挿入説明
3. パラレルツリートラバーサルタグ
ここに画像を挿入説明
ご注意ください
ここに画像を挿入説明

五、HTMLベースのフォーマット出力BS4ライブラリ

  1. によって呼び出さBS4ライブラリ飾り立てる()メソッド(:soup.prettify()
    ここに画像を挿入説明
  2. コーディングBS4ライブラリ
    ここに画像を挿入説明

第六には、ライブラリはメソッドを提供見つけるBS4

<>。find_all(名、attrsに、再帰的に、文字列、** kwargsから)

  1. 名前:タグ名を取得するための文字列
    ここに画像を挿入説明

  2. ATTRS:検索文字列タグの属性値、属性検索を標識することができる
    よう:ID =「」、クラス= 「」

  3. これを再帰すべての子孫を取得するかどうか、○デフォルト値:
    ここに画像を挿入説明

  4. 文字列:<> ... </>文字列の検索文字列領域
    リストタイプ、メモリのルックアップの結果を返します。
    ここに画像を挿入説明

ご注意ください:ルックアップ機能は、より一般的に使用されているので、そう:
ここに画像を挿入説明ここに画像を挿入説明

公開された17元の記事 ウォンの賞賛0 ビュー310

おすすめ

転載: blog.csdn.net/L_xiao_jie/article/details/104253806