Python3 usa o módulo de solicitação para rastrear imagens de páginas da web

da solicitação de importação urllib
import re
import os

def down_html (url, fname):
    r = request.urlopen (url)
    com open (fname, 'wb') como fobj:
        enquanto True:
            data = r.read ()
            se não houver dados:
                break
            fobj.write (data)

def get_url (fname, patt):
    cpatt = re.compile (patt)
    lista = []
    com open (fname) como fobj:
        para linha em fobj:
            m = re.search (cpatt, linha)
            se m:
                list.append (
    lista de retorno m.group ())

if __name__ == '__main__':
    save_dir = '/ tmp / images',
    se não os.path.exists (save_dir):
        os.mkdir (save_dir)
    patt = 'http: // [. \ w / -] + \. (jpg | jpeg | png | gif) '
    html_url =' http://www.tedu.cn/ '
    html_fname =' /tmp/tedu.html '
    down_html (html_url, html_fname)
    urls = get_url (html_fname, patt)
    para URL em urls:
        url_fname = url.split ('/') [- 1]
        image_fname = os.path.join (save_dir, url_fname)
        down_html (url, image_fname)

Publicado 73 artigos originais · elogiados 4 · 20.000+ visualizações

Acho que você gosta

Origin blog.csdn.net/qq_27592485/article/details/102558166
Recomendado
Clasificación