da solicitação de importação urllib
import re
import os
def down_html (url, fname):
r = request.urlopen (url)
com open (fname, 'wb') como fobj:
enquanto True:
data = r.read ()
se não houver dados:
break
fobj.write (data)
def get_url (fname, patt):
cpatt = re.compile (patt)
lista = []
com open (fname) como fobj:
para linha em fobj:
m = re.search (cpatt, linha)
se m:
list.append (
lista de retorno m.group ())
if __name__ == '__main__':
save_dir = '/ tmp / images',
se não os.path.exists (save_dir):
os.mkdir (save_dir)
patt = 'http: // [. \ w / -] + \. (jpg | jpeg | png | gif) '
html_url =' http://www.tedu.cn/ '
html_fname =' /tmp/tedu.html '
down_html (html_url, html_fname)
urls = get_url (html_fname, patt)
para URL em urls:
url_fname = url.split ('/') [- 1]
image_fname = os.path.join (save_dir, url_fname)
down_html (url, image_fname)