ケース58のxpathクロールレンタルリスト&ダウンロードのイメージデータ&ゴミ問題を解析

58中古住宅物件名が解決します

lxmlのインポートetreeの
 インポート要求
URL = ' https://haikou.58.com/chuzu/j2/ ' 
ヘッダ = {
 ' のUser-Agent '" のAppleWebKitのMozilla / 5.0(;; Androidの6.0ネクサス5ビルド/ MRA58NのLinux) /537.36(KHTML、ヤモリ等)クローム/ 77.0.3865.90モバイルサファリ/ 537.36 ' 
} 
パーサ = etree.HTMLParser(エンコード= ' UTF-8 ' 
page_text = requests.get(URL = URL)の.text 
ツリー = etree.HTML (page_text、パーサ= パーサ)
LIS = tree.xpath(' // UL [@クラス= "家リスト"] /李' のための li_item LIS:
    RES = li_item.xpath(' .// H2 / /テキスト()' )#の注意./  
    プリント(RES [ 0] .strip())

 


 

スクリーン画像の他の側面図をクロール

 

lxmlのインポートetreeの
 インポート要求
URL = ' http://pic.netbian.com/4kfengjing ' 
ヘッダ = {
 ' のUser-Agent '" のAppleWebKit / 537.36(Mozillaの/ 5.0(;; Androidの6.0ネクサス5ビルド/ MRA58NのLinux) KHTML、ヤモリ等)クローム/ 77.0.3865.90モバイルサファリ/ 537.36 ' 
} 
パーサ = etree.HTMLParser(エンコード= ' UTF-8 ' 
page_text = requests.get(URL = URL、ヘッダー= ヘッダ)の.text 
ツリー = etree。 HTML(page_text、パーサ= パーサ)
RES= tree.xpath(' // divの[クラス@ = "SLIST"] //リー/ A / IMG / @ SRC ' 
カウント = 0の
 ため url_item RES:
    full_url = " %S%S "%(" のhttp: //pic.netbian.com/ 'url_item) 
    RES = requests.get(URL = full_url).content 
    とオープン(' 图片%s.jpg '%カウント、' WB Fとして):
        f.write(RES) + = 1

ゴミ問題:

  1.全体的に

    - 応答= requests.get(URL = XXX、ヘッダー= XXX)

    -response.encoding = 'UTF-8'

  2.個々の

      - xxx.encode( 'ISO-8859-1')デコード( 'GBK')(中国語歪み一般的な処理方式)。

 

おすすめ

転載: www.cnblogs.com/Jnhnsnow/p/11612292.html