1つの #(5前)クロールembarrassments百科事典写真・##正規表現 2つ のインポート要求の#の要求データ 4 から urllibはインポート要求#は、この便利な写真のダウンロードで、データを要求した 5つの インポートしたRe #通常の 6つの #のembarrassments百科事典の写真住所 7 #通常のGET要求 8 K = 0 9。 ための I に範囲(1,6 ): 10 URL = F ' https://www.qiushibaike.com/imgrank/page/{i}/ ' 。11 #UA防ぐマスカレードシースルー 12の =ヘッダ{ 13が " User--エージェントは、":" のMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(KHTML、ヤモリ等)クローム/ 65.0.3325.181サファリ/ 537.36 " 14 } 15の #は、応答は、応答オブジェクトをフェッチ 16件 のRES =リクエスト。 (URL、ヘッダー= GET ヘッダ) 。17の #のfindAll正規表現、リストを返し、re.Sのに使用されるHTML / T / Nなどの溶液 18である re.findall =(img_urls ' <DIV CLASS =「親指を。 "?> * <IMG SRC ="。? "高さ= *"オート「> * </ DIV>(*。?)。?" 、res.text、re.S) 19 用 img_url でimg_urls: 20 K + 1 = 21 img_url = ' HTTPS:' + img_url 22 imgName = " ./imges/qiushi " + STR(I)+ STR(K)+ " .JPG " 23 request.urlretrieve(img_url、imgName)
## BS4ドキュメントhttps://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
1つの #のクロールは、BS4使用して##(5前)百科事典の絵をembarrassments 2 インポート要求#の要求データを 3 から BS4 インポート BeautifulSoup #のデータ分析を 。4 から urllibはのインポート要求#の要求データ、この便利なダウンロードの写真を 5つの #のembarrassments百科事典アドレス写真 6 #通常のGETリクエスト 7 = K 0 8。 ための I に範囲(1,6 ) 。9 URL = ' https://www.qiushibaike.com/imgrank/page/1/ ' 10 #UAを通して見るなりすまし防止 11 =ヘッダ{ 12はである " User--エージェント":" はMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(ヤモリ様KHTML)クローム/ 65.0.3325.181サファリ/ 537.36 " 13である } 14の #は、応答は、応答オブジェクトをフェッチ 15の = RESをrequests.get(URL、ヘッダー= ヘッダ) 16 テキスト= res.text 。17 #BeautifulSoupインスタンス化されたオブジェクト 18がある スープ= BeautifulSoup(テキスト、" lxmlの" ) 。19 #は、関連データを見つけるために 20 img_urls = soup.find_all(class_が= " イラスト") 21 #ピクチャアドレストラバース 22の ため img_url にimg_urls: 23 K + 1 = 24 #のアドレスのステッチ全体像 25 img_url = " HTTPS:" + img_url.get(" SRC " ) 26 #ダウンロード画像保管場所名 27 imgName = " ./imges/qiushi " + STR(I)+ STR(K)+ " .JPG 」 28 request.urlretrieve(img_url、imgName)
lxmlの
1つの #クロール(5前)百科事典の絵embarrassments 2つ のインポート要求#の要求データ 。3 から lxmlのインポート etreeの#のデータ解析 。4 から urllibはのインポート要求#の要求データ、この便利なダウンロードの写真を 5つの #のembarrassments百科事典の絵アドレス 6 #通常のGET要求 。7 K = 0 8。 ための I に範囲(1,6 ) 。9 URL = ' https://www.qiushibaike.com/imgrank/page/1/ ' 10 #UAを介して参照なりすまし防止 11 =ヘッダ{ 12はである " User--エージェント":" はMozilla / 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(ヤモリ様KHTML)クローム/ 65.0.3325.181サファリ/ 537.36 " 13である } 14の #は、応答は、応答オブジェクトをフェッチ 15の = RESをrequests.get(URL、ヘッダ= ヘッダ) 16 テキスト= res.text 。17 #ファイル形式は、文字列のHTML文書に変換され、 18である のhtml = etree.HTML(テキスト) 。19 img_urls = html.xpath(" //のdiv [@ =クラスの親指'] // IMG / SRC @ 」) 20がある ため img_url でimg_urls: 21 img_url = " HTTPS:" + img_url 22 K + = 1 23 imgName = " ./imges/qiushi " + STR(I)+ STR(K)+ " .JPG " 24 request.urlretrieve(img_url、imgName) 25 プリント(" 正在の下载ING:%S "%のimg_url)