58中古住宅物件名が解決します
lxmlのインポートetreeの インポート要求 URL = ' https://haikou.58.com/chuzu/j2/ ' ヘッダ = { ' のUser-Agent ':" のAppleWebKitのMozilla / 5.0(;; Androidの6.0ネクサス5ビルド/ MRA58NのLinux) /537.36(KHTML、ヤモリ等)クローム/ 77.0.3865.90モバイルサファリ/ 537.36 ' } パーサ = etree.HTMLParser(エンコード= ' UTF-8 ' ) page_text = requests.get(URL = URL)の.text ツリー = etree.HTML (page_text、パーサ= パーサ) LIS = tree.xpath(' // UL [@クラス= "家リスト"] /李' ) のための li_item でLIS: RES = li_item.xpath(' .// H2 / /テキスト()' )#の注意./ プリント(RES [ 0] .strip())
スクリーン画像の他の側面図をクロール
lxmlのインポートetreeの インポート要求 URL = ' http://pic.netbian.com/4kfengjing ' ヘッダ = { ' のUser-Agent ':" のAppleWebKit / 537.36(Mozillaの/ 5.0(;; Androidの6.0ネクサス5ビルド/ MRA58NのLinux) KHTML、ヤモリ等)クローム/ 77.0.3865.90モバイルサファリ/ 537.36 ' } パーサ = etree.HTMLParser(エンコード= ' UTF-8 ' ) page_text = requests.get(URL = URL、ヘッダー= ヘッダ)の.text ツリー = etree。 HTML(page_text、パーサ= パーサ) RES= tree.xpath(' // divの[クラス@ = "SLIST"] //リー/ A / IMG / @ SRC ' ) カウント = 0の ため url_item にRES: full_url = " %S%S "%(" のhttp: //pic.netbian.com/ 'url_item) RES = requests.get(URL = full_url).content とオープン(' 图片%s.jpg '%カウント、' WB 」Fとして): f.write(RES) 数 + = 1
ゴミ問題:
1.全体的に
- 応答= requests.get(URL = XXX、ヘッダー= XXX)
-response.encoding = 'UTF-8'
2.個々の
- xxx.encode( 'ISO-8859-1')デコード( 'GBK')(中国語歪み一般的な処理方式)。