ウェブサイトの画像をクロールPythonの爬虫類

!/usr/local/bin/python3.7

インポートインポートurllib.request
 輸入urllib.parse
 インポートのOS
 インポート

「」」
@file:qiushibaike.py
@time:2020年4月6日
@author:Mozili

「」」

「」」
クロールembarrassments百科事典は、ページ画像を指定しました

""」
defのhandler_request(URL):
    ヘッダ = {
     ' のUser-Agent '' Mozillaの/ 5.0(Macintosh版、インテルのMac OS X 10_15_4)のAppleWebKit / 605.1.15(ヤモリのようにKHTML、)バージョン/ 13.1サファリ/ 605.1.15 '
    } 
    リクエストの作成 
    REQを= urllib.request.Request(URL = urlには、ヘッダ= ヘッダ)
     #の送信を要求し 
    REP = urllib.request.urlopen(REQ)
    取得戻りコンテンツ 
    CONTを= rep.read()。デコード()
     の戻りCONT

デフdownload_image(コンテンツ):
    パターン = re.compile(R ' <DIV CLASS = "親指">。*?<IMG SRC = "(。*?)"。*? ">。*?</ div> ' 、re.S)
    RET = pattern.findall(コンテンツ)
     #の印刷(RET) 
    は、画像のURLを生成し、あなたのローカルにダウンロード写真
     IMAGE_URL RET:
        IMAGE_URL = ' HTTPS:' + IMAGE_URL
         ダウンロードしたファイルを保存するフォルダを作成します 
        = driname ' 爬虫類/ RFロイヤリティーフリー' 
        IFを しませos.path.exists(driname):
            os.mkdir(driname)
        パス保存作成 
        イメージ名のimage_url.split =(' / ' [ - 1)]
        IMAGE_PATH = driname + ' / ' + イメージ名の
         #を直接返さ記憶内容
        プリント' イメージ{}ダウンロードを開始.... ' .format(イメージ名))
        time.sleep( 1 
        RESP = urllib.request.urlretrieve(IMAGE_URL、IMAGE_PATH)

DEF メイン():
     #1 の最初の数ページに数ページの写真をクロールするためのプロンプト 
    START_PAGE = INT(INPUT(:開始ページ番号を入力してください))
    end_page = INT(INPUT(終了ページを入力してください:" ))

     I における範囲(start_page、end_page + 1 ):
        URL = ' https://www.qiushibaike.com/imgrank/page/ ' + STR(I)+ ' / ' 
        #は、要求生成 
        コンテンツ= handler_request(URL)
        リターンリンクコンテンツから取得画像、ダウンロード写真の
        download_image(コンテンツ)
         を印刷%sのダウンロードページの最後の... %のI)
        time.sleep( 1 プリント()
         プリント()

もし __name__ == " __main__ " 
    メイン()

 

おすすめ

転載: www.cnblogs.com/lxmtx/p/12643547.html