今日分享--使用urllib 爬取斗鱼英雄联盟图片

#!usr/bin/env python
#-*- coding:utf-8 _*-
"""
@author:吴俊峰
@file: 爬虫基础.py
@time: 2018/09/11 10:24

"""
import urllib
import re
import time

def getHtml(url):
f = urllib.urlopen(url)
page = f.read()
return page

# html = getHtml("https://www.douyu.com/g_LOL")
# print html

def getImg(html):
reg = re.compile(r'data-original="(.*?)"')
imglist=re.findall(reg,html)
print imglist
x=1
for img in imglist:
#print img,type(img)

s= urllib.urlretrieve(img,r"C:\\Users\\lenovo\\PycharmProjects\\Primary\\image\\%s.jpg"%x) #路劲加r代表处理不转义现象 正则表达式用于处理正则表达式时,规避反斜杠的转义
time.sleep(2)
print "正在下载%s"%img
x+=1
print "下载完成"
getImg(getHtml("https://www.douyu.com/g_LOL"))

至于分页爬取,还没有研究,使用for循环跟php同理爬取,稍后分享

猜你喜欢

转载自www.cnblogs.com/wujf-myblog/p/9629430.html