de urllib solicitud de
importación importación re
importación os
def down_html (url, fname):
r = request.urlopen (url)
con open (fname, 'wb') como fobj:
while True:
data = r.read ()
si no data:
break
fobj.write (data)
def get_url (fname, patt):
cpatt = re.compile (patt)
list = []
con open (fname) como fobj:
para la línea en fobj:
m = re.search (cpatt, line)
if m:
list.append ( m.group ())
lista de retorno
if __name__ == '__main__':
save_dir = '/ tmp / images'
si no es os.path.exists (save_dir):
os.mkdir (save_dir) patt
= 'http: // [. \ w / -] + \. (jpg | jpeg | png | gif) '
html_url =' http://www.tedu.cn/ '
html_fname =' /tmp/tedu.html '
down_html (html_url, html_fname)
urls = get_url (html_fname, patt)
para url en URL:
url_fname = url.split ('/') [- 1]
image_fname = os.path.join (save_dir, url_fname)
down_html (url, image_fname)