Python3 usa el módulo de solicitud para rastrear imágenes de la página web

de urllib solicitud de
importación importación re
importación os

def down_html (url, fname):
    r = request.urlopen (url)
    con open (fname, 'wb') como fobj:
        while True:
            data = r.read ()
            si no data:
                break
            fobj.write (data)

def get_url (fname, patt):
    cpatt = re.compile (patt)
    list = []
    con open (fname) como fobj:
        para la línea en fobj:
            m = re.search (cpatt, line)
            if m:
                list.append ( m.group ())
    lista de retorno

if __name__ == '__main__':
    save_dir = '/ tmp / images'
    si no es os.path.exists (save_dir):
        os.mkdir (save_dir) patt
    = 'http: // [. \ w / -] + \. (jpg | jpeg | png | gif) '
    html_url =' http://www.tedu.cn/ '
    html_fname =' /tmp/tedu.html '
    down_html (html_url, html_fname)
    urls = get_url (html_fname, patt)
    para url en URL:
        url_fname = url.split ('/') [- 1]
        image_fname = os.path.join (save_dir, url_fname)
        down_html (url, image_fname)

Publicado 73 artículos originales · elogiado 4 · 20,000+ visitas

Supongo que te gusta

Origin blog.csdn.net/qq_27592485/article/details/102558166
Recomendado
Clasificación