ウェブサイトの画像をクロールPythonの爬虫類

＃！/usr/local/bin/python3.7

インポート再
 インポートurllib.request
 輸入urllib.parse
 インポートのOS
 インポート時

「」」
@file：qiushibaike.py
@time：2020年4月6日
@author：Mozili

「」」

「」」
クロールembarrassments百科事典は、ページ画像を指定しました

""」
defのhandler_request（URL）：
    ヘッダ = {
     ' のUser-Agent '：' Mozillaの/ 5.0（Macintosh版、インテルのMac OS X 10_15_4）のAppleWebKit / 605.1.15（ヤモリのようにKHTML、）バージョン/ 13.1サファリ/ 605.1.15 '
    } 
    ＃リクエストの作成 
    REQを= urllib.request.Request（URL = urlには、ヘッダ= ヘッダ）
     ＃の送信を要求し 
    REP = urllib.request.urlopen（REQ）
    ＃取得戻りコンテンツ 
    CONTを= rep.read（）。デコード（）
     の戻りCONT

デフdownload_image（コンテンツ）：
    パターン = re.compile（R ' <DIV CLASS = "親指">。*？<IMG SRC = "（。*？）"。*？ ">。*？</ div> ' 、re.S）
    RET = pattern.findall（コンテンツ）
     ＃の印刷（RET） 
    ＃は、画像のURLを生成し、あなたのローカルにダウンロード写真
    用 IMAGE_URL でRET：
        IMAGE_URL = ' HTTPS：' + IMAGE_URL
         ＃ダウンロードしたファイルを保存するフォルダを作成します 
        = driname ' 爬虫類/ RFロイヤリティーフリー' 
        IFを しませos.path.exists（driname）：
            os.mkdir（driname）
        ＃パス保存作成 
        イメージ名のimage_url.split =（' / ' [ - 1）]
        IMAGE_PATH = driname + ' / ' + イメージ名の
         ＃を直接返さ記憶内容
        プリント（' イメージ{}ダウンロードを開始.... ' .format（イメージ名））
        time.sleep（ 1 ）
        RESP = urllib.request.urlretrieve（IMAGE_URL、IMAGE_PATH）

DEF メイン（）：
     ＃1 の最初の数ページに数ページの写真をクロールするためのプロンプト 
    START_PAGE = INT（INPUT（「：開始ページ番号を入力してください」））
    end_page = INT（INPUT（「終了ページを入力してください：" ））

    用 I における範囲（start_page、end_page + 1 ）：
        URL = ' https://www.qiushibaike.com/imgrank/page/ ' + STR（I）+ ' / ' 
        ＃は、要求生成 
        コンテンツ= handler_request（URL）
        ＃リターンリンクコンテンツから取得画像、ダウンロード写真の
        download_image（コンテンツ）
         を印刷（「％sのダウンロードページの最後の... 」％のI）
        time.sleep（ 1 ）
         プリント（）
         プリント（）

もし __name__ == " __main__ " ：
    メイン（）
ウェブサイトの画像をクロールPythonの爬虫類

おすすめ