Python_爬虫類の_xpath / BS4 /小さな戦闘再

1つの (5前)クロールembarrassments百科事典写真・##正規表現
2つ のインポート要求の#の要求データ
4  から urllibはインポート要求#は、この便利な写真のダウンロードで、データを要求した
5つの インポートしたRe 通常の
6つの #のembarrassments百科事典の写真住所
7  通常のGET要求
8 K = 0
 9。 ための I 範囲(1,6 ):
 10      URL = F ' https://www.qiushibaike.com/imgrank/page/{i}/ ' 
。11      UA防ぐマスカレードシースルー
12の      =ヘッダ{
 13が         " User--エージェントは、"" のMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(KHTML、ヤモリ等)クローム/ 65.0.3325.181サファリ/ 537.36 " 
14      }
 15の     #は、応答は、応答オブジェクトをフェッチ
16件      のRES =リクエスト。 (URL、ヘッダー= GET ヘッダ)
 。17の     のfindAll正規表現、リストを返し、re.Sのに使用されるHTML / T / Nなどの溶液
18である      re.findall =(img_urls ' <DIV CLASS =「親指を。 "?> * <IMG SRC ="。? "高さ= *"オート「> * </ DIV>(*。?)。?" 、res.text、re.S)
 19       img_url img_urls:
20          K + 1 =
 21         img_url = ' HTTPS:' + img_url
 22          imgName = " ./imges/qiushi " + STR(I)+ STR(K)+ " .JPG " 
23          request.urlretrieve(img_url、imgName)

## BS4ドキュメントhttps://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

1つの #のクロールは、BS4使用して##(5前)百科事典の絵をembarrassments 
2  インポート要求#の要求データを
3  から BS4 インポート BeautifulSoup #のデータ分析を
。4  から urllibはのインポート要求#の要求データ、この便利なダウンロードの写真を
5つの #のembarrassments百科事典アドレス写真
6  通常のGETリクエスト
7 = K 0
 8。 ための I 範囲(1,6 。9      URL = ' https://www.qiushibaike.com/imgrank/page/1/ ' 
10      UAを通して見るなりすまし防止
11     =ヘッダ{
 12はである         " User--エージェント"" はMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(ヤモリ様KHTML)クローム/ 65.0.3325.181サファリ/ 537.36 " 
13である     }
 14の     #は、応答は、応答オブジェクトをフェッチ
15の      = RESをrequests.get(URL、ヘッダー= ヘッダ)
 16      テキスト= res.text
 。17      BeautifulSoupインスタンス化されたオブジェクト
18がある      スープ= BeautifulSoup(テキスト、" lxmlの" 。19      #は、関連データを見つけるために
20      img_urls = soup.find_all(class_が= " イラスト"21      ピクチャアドレストラバース
22の     ため img_url img_urls:
 23          K + 1 =
 24          #のアドレスのステッチ全体像
25          img_url = " HTTPS:" + img_url.get(" SRC " 26          ダウンロード画像保管場所名
27          imgName = " ./imges/qiushi " + STR(I)+ STR(K)+ " .JPG 
28          request.urlretrieve(img_url、imgName)

lxmlの 

1つの クロール(5前)百科事典の絵embarrassments 
2つ のインポート要求#の要求データ
。3  から lxmlのインポート etreeの#のデータ解析
。4  から urllibはのインポート要求#の要求データ、この便利なダウンロードの写真を
5つの #のembarrassments百科事典の絵アドレス
6  通常のGET要求
。7 K = 0
 8。 ための I 範囲(1,6 。9      URL = ' https://www.qiushibaike.com/imgrank/page/1/ ' 
10      UAを介して参照なりすまし防止
11     =ヘッダ{
 12はである         " User--エージェント"" はMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(ヤモリ様KHTML)クローム/ 65.0.3325.181サファリ/ 537.36 " 
13である     }
 14の     #は、応答は、応答オブジェクトをフェッチ
15の      = RESをrequests.get(URL、ヘッダ= ヘッダ)
 16      テキスト= res.text
 。17      ファイル形式は、文字列のHTML文書に変換され、
18である      のhtml = etree.HTML(テキスト)
 。19      img_urls = html.xpath(" //のdiv [@ =クラスの親指'] // IMG / SRC @ 20がある     ため img_url img_urls:
 21          img_url = " HTTPS:" + img_url
 22          K + = 1
 23          imgName = " ./imges/qiushi " + STR(I)+ STR(K)+ " .JPG " 
24          request.urlretrieve(img_url、imgName)
 25          プリント" 正在の下载ING:%S "%のimg_url)

 

おすすめ

転載: www.cnblogs.com/helloboke/p/11494671.html