#!/usr/local/bin/python3.7 インポート再 インポートurllib.request 輸入urllib.parse インポートのOS インポート時 「」」 @file:qiushibaike.py @time:2020年4月6日 @author:Mozili 「」」 「」」 クロールembarrassments百科事典は、ページ画像を指定しました ""」 defのhandler_request(URL): ヘッダ = { ' のUser-Agent ':' Mozillaの/ 5.0(Macintosh版、インテルのMac OS X 10_15_4)のAppleWebKit / 605.1.15(ヤモリのようにKHTML、)バージョン/ 13.1サファリ/ 605.1.15 ' } #リクエストの作成 REQを= urllib.request.Request(URL = urlには、ヘッダ= ヘッダ) #の送信を要求し REP = urllib.request.urlopen(REQ) #取得戻りコンテンツ CONTを= rep.read()。デコード() の戻りCONT デフdownload_image(コンテンツ): パターン = re.compile(R ' <DIV CLASS = "親指">。*?<IMG SRC = "(。*?)"。*? ">。*?</ div> ' 、re.S) RET = pattern.findall(コンテンツ) #の印刷(RET) #は、画像のURLを生成し、あなたのローカルにダウンロード写真 用 IMAGE_URL でRET: IMAGE_URL = ' HTTPS:' + IMAGE_URL #ダウンロードしたファイルを保存するフォルダを作成します = driname ' 爬虫類/ RFロイヤリティーフリー' IFを しませos.path.exists(driname): os.mkdir(driname) #パス保存作成 イメージ名のimage_url.split =(' / ' [ - 1)] IMAGE_PATH = driname + ' / ' + イメージ名の #を直接返さ記憶内容 プリント(' イメージ{}ダウンロードを開始.... ' .format(イメージ名)) time.sleep( 1 ) RESP = urllib.request.urlretrieve(IMAGE_URL、IMAGE_PATH) DEF メイン(): #1 の最初の数ページに数ページの写真をクロールするためのプロンプト START_PAGE = INT(INPUT(「:開始ページ番号を入力してください」)) end_page = INT(INPUT(「終了ページを入力してください:" )) 用 I における範囲(start_page、end_page + 1 ): URL = ' https://www.qiushibaike.com/imgrank/page/ ' + STR(I)+ ' / ' #は、要求生成 コンテンツ= handler_request(URL) #リターンリンクコンテンツから取得画像、ダウンロード写真の download_image(コンテンツ) を印刷(「%sのダウンロードページの最後の... 」%のI) time.sleep( 1 ) プリント() プリント() もし __name__ == " __main__ " : メイン()