Python3はリクエストモジュールを使用してウェブページの画像をクロールします

urllibインポート要求から
インポート再
インポートos

def down_html(url、fname):
    r = request.urlopen(url)
    with open(fname、 'wb')as fobj:
        while True:
            data = r.read()
            if not data:
                break
            fobj.write(data)

def get_url(fname、patt):
    cpatt = re.compile(patt)
    list = []
    with open(fname)as fobj:
        for line in fobj:
            m = re.search(cpatt、line)
            if m:
                list.append( m.group())
    戻りリスト

if __name__ == '
    __main__ ':save_dir = '/ tmp / images'
    if not os.path.exists(save_dir):
        os.mkdir(save_dir)
    patt = 'http:// [。\ w /-] + \。 (jpg | jpeg | png | gif) '
    html_url =' http://www.tedu.cn/ '
    html_fname =' /tmp/tedu.html '
    down_html(html_url、html_fname)
    urls = get_url(html_fname、patt)
    for url urls:
        url_fname = url.split( '/')[-1]
        image_fname = os.path.join(save_dir、url_fname)
        down_html(url、image_fname)

73件の元の記事を公開 賞賛4 20,000回以上の閲覧

おすすめ

転載: blog.csdn.net/qq_27592485/article/details/102558166
おすすめ