小さな爬虫類演習:ヒープ砂糖イメージクロール

#菠萝唐
#の
コーディング:UTF-8 輸入urllib2の インポートurllibは インポートのOS インポートのインポートのJSON インポートjsonpath デフでhandle_request(URL、並べ替え、ページ): qurey_string = " &タイプ=フィード&include_fields = top_comments%2Cis_root%2Csource_link%2Citem%2Cbuyable%2Croot_id% 2Cstatus%2Clike_count%2Clike_id%2Csender%2Calbum%2Creply_count%2Cfavorite_blog_id&_type =&' url_use = URL +ソート+ qurey_string + ' START = ' + STR(24 * ページ) ヘッダー = { 'User-Agent '' Mozillaの/ 5.0(Windows NTの10.0; Win64の、x64)のクローム/ 69.0.3497.100サファリ/ 537.36のAppleWebKit / 537.36(ヤモリのようにKHTML、)" } 要求 =はurllib2.Request(URL = url_use、ヘッダ= ヘッダ) 復帰要求 デフ:download_image(コンテンツ) unicodestr = json.loads(コンテンツ) url_list = jsonpath.jsonpath(unicodestr、" $ ...パス" のためのurl_list: dirnameは = ' DuiTang ' もし ありませんos.path.exists(DIRNAME): os.mkdir(DIRNAME) ファイル名 = li.split(' / ') - 1 ] #の印刷(ファイル名) ファイルパス= DIRNAME + ' / ' + ファイル名 #の印刷(ファイルパス) urllibは。 urlretrieve(李、ファイルパス) time.sleep( 1。 DEF メイン(): URL = ' https://www.duitang.com/napi/blog/list/by_search/?kw= ' START_PAGE = INT(INPUT(" してください入力初期グリップ位置(グラフの24の部分):" )) end_page = INT(INPUTは、(" 位置グリップエンドを入力してください:" )) ソート raw_input(= " クエリのタイプを入力してください:" のためのページ範囲(1-START_PAGE。、end_page): 印刷" %sのセクションのが始まりダウンロード...... "%(ページ+ 1 )) を要求 = でhandle_request(URL、ソート、ページ) コンテンツ = urllib2.urlopen(リクエスト).read() 印刷(コンテンツ) #内容を解析し、すべての画像のリンクを抽出し、 、ダウンロードの写真は download_image(コンテンツ) を印刷"%部分的にダウンロードのS'%(ページ+ 1 )) time.sleep( 2 もし __name__ == ' __main__ ' メイン()

#使用python2.7

#ヒープの砂糖の写真は、JSONに基づいてされて表示され、ちょうどカバーアップページングを来、主なパラメータは次のとおりです。キロワット、および位置を開始!

#あなたが学ぶ必要があるJSONデータを入手!

#unicodestr = json.loads(コンテンツ)

#url_list = jsonpath.jsonpath(unicodestr、 "$ ...パス")

おすすめ

転載: www.cnblogs.com/lst-315/p/11493170.html