Pythonの爬虫類学習(b)の使用美しいスープライブラリー

(A)の美しいスープライブラリを使用して

  1、インストール美しいスープライブラリ:ピップbeautifulsoup4をインストール

  2、シンプルに使用します:

インポート要求。
_socketのインポートタイムアウト
 から BS4の輸入BeautifulSoupの#使用美しいスープ库需要导包
 AIFCインポートデータから、デフgetHTMLText(URL):
     試してみます

        R = requests.get(URL、タイムアウト= 30 
        r.raise_for_status()           接続ステータスが200でない場合は、例外がスローされますHTTPError 
        r.encoding = r.apparent_encoding -returnエンコードされた通常の
        印刷接続成功のリターンはr.status_code
     除く印刷接続例外のリターンをr.status_code

URL = " https://python123.io/ws/demo.html " 
キーワード= { "IP": "202.204.80.112"} 
アクセス= { " のUser-Agent "" Mozillaの/ 5.0 " }               セット訪問ブラウザMozilla5.0 
IF getHTMLText(URL)== 200 
    R = requests.get(URL、ヘッダー= アクセス)        
     #1 プリント(r.encoding) 
    r.encoding = r.apparent_encoding
    デモ = r.text
     スープ = BeautifulSoup(デモ、 "html.parser")       HTMLページの解析、使用html.parserパーサ
    印刷(soup.prettify())                      印刷HTMLコード印刷(soup.a.attrs) 印刷HTML文書のタグの最初の属性は、典型的なデータ・ワードを取得し、リンクsoup.a.attrsに従って取得されてもよい[「のhref」] プリント(soup.a.name)              #最初のラベル上にラベルを印刷名前の 印刷(soup.a.parent.name)#は、親タグ最初のタグのタグ名をプリントアウト
   
  

 

  3、原理:

    

 

 

     

 

 

 (二)

  1、基本的な要素

    

     美しいスープトラバースHTMLライブラリを使用します

 

 

     

 

    

     

 

    

 

 

     

 

おすすめ

転載: www.cnblogs.com/lq13035130506/p/12244359.html