(A)の美しいスープライブラリを使用して
1、インストール美しいスープライブラリ:ピップbeautifulsoup4をインストール
2、シンプルに使用します:
インポート要求。 _socketのインポートタイムアウト から BS4の輸入BeautifulSoupの#使用美しいスープ库需要导包 #AIFCインポートデータから、デフgetHTMLText(URL): 試してみます: R = requests.get(URL、タイムアウト= 30 ) r.raise_for_status() #接続ステータスが200でない場合は、例外がスローされますHTTPError r.encoding = r.apparent_encoding #-returnエンコードされた通常の 印刷(「接続成功」) のリターンはr.status_code 除く: 印刷(「接続例外」) のリターンをr.status_code URL = " https://python123.io/ws/demo.html " #キーワード= { "IP": "202.204.80.112"} アクセス= { " のUser-Agent ":" Mozillaの/ 5.0 " } #セット訪問ブラウザMozilla5.0 IF getHTMLText(URL)== 200 : R = requests.get(URL、ヘッダー= アクセス) #1 プリント(r.encoding) r.encoding = r.apparent_encoding デモ = r.text スープ = BeautifulSoup(デモ、 "html.parser") #HTMLページの解析、使用html.parserパーサ 印刷(soup.prettify()) #の印刷HTMLコード印刷(soup.a.attrs) #印刷HTML文書のタグの最初の属性は、典型的なデータ・ワードを取得し、リンクsoup.a.attrsに従って取得されてもよい[「のhref」] プリント(soup.a.name) #最初のラベル上にラベルを印刷名前の 印刷(soup.a.parent.name)#は、親タグ最初のタグのタグ名をプリントアウト
3、原理:
(二)
1、基本的な要素
美しいスープトラバースHTMLライブラリを使用します