フリップスタイルのウェブサイトのクロール - Baiduの画像をクロールパイソン

今月の初めについての小さなシリーズは、コードのこの作品を書くが、残念ながら、おそらく20号、再び絵のページストリームをBaiduのを見て、滝を発見し、戻って、それに左ページの内部幸いコードURLストリーム

だから今、共有への皆のために来ます。

言語:python3.6

库:リクエスト、再、urllibは

リクエストに加えて、二つの他のモジュールは、直接呼び出すことができているのpythonが付属して、インストールピップする必要があります。

オリジナルのURLコードします。https://image.baidu.com/search/flip TN = baiduimage&すなわち= UTF-8&単語=妹&PN = 0?

直接コピーしたURLは、小さな姉妹のBaiduの画像ページフローの写真の最初のページを表示することができます。さて、次のコードでは、詳細なコメントとして。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
# Author:water_chen


import requests
import re
from urllib import request

def get_picture_list(keyword,biggest_pages):
    all_picture_list = []
    for page in range(biggest_pages):
     # 每一页20张图片, 所以翻页的是0 20 40 80 这样变化的
        page = page * 20
        url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word={}&pn={}'.format(keyword, page)
     # 
        html = requests.get(url).content.decode('utf-8')

        picture_list = re.findall('{"thumbURL":"(.*?)",', html)# 用正则匹配,获得图片的url

        all_picture_list.extend(picture_list)
  all_picture_list = set(all_picture_list)# 因为第二页也有后面两页的图片,所以要去重
  download_picture(all_picture_list)
# 下载图片
def download_picture(all_picture_list):
    for i, pic_url in enumerate(all_picture_list):
        print(i)
     # 在代码的路径下,新建一个picture,图片会由urlretrieve函数保存到本地
        string = 'picture/{}.jpg'.format(str(i + 1))
        request.urlretrieve(pic_url, string)
# 开始函数
def start():
   # 你想搜索的关键词
    keyword = '小姐姐'
   # 你想搜索的页数
    biggest_pages = 10
    get_picture_list(keyword, biggest_pages)
if __name__ == '__main__':
    start()

それはすぐにページフローのURL保存、今Baiduはあなたが登るしたい場合、あなたは、このコードは、比較的簡単に入手することができ、たくさんの悩みをスクロールページへのセレンを必要とし、滝の絵です。

役立つ場合は、あなたに感謝、賞賛をポイントしてください。ブログパークアドレスします。https://www.cnblogs.com/chenyuan404/p/10192758.html

公開された12元の記事 ウォンの賞賛3 ビュー2052

おすすめ

転載: blog.csdn.net/weixin_40902563/article/details/100086949