七亿少女的劫丨
安装python3.7.1环境
python下载链接
安装开发工具PyCharm
PyCharm下载链接
1.代码
import urllib
import re
import urllib.request
def get_html(url):
page = urllib.request.urlopen(url)
html_code = page.read().decode("gbk")
return html_code
def get_image(html_code):
reg = r'src="(.+?\.jpg)" title'
reg_img = re.compile(reg)
img_list = reg_img.findall(html_code)
x = 0
print("匹配到", len(img_list), "个图片对象")
for img in img_list:
print(img)
urllib.request.urlretrieve(img, '%s.jpg' % x)
x += 1
print(u'-------网页图片爬取-------')
print(u'请输入url:', end=""),
url = input()
if url:
pass
else:
print(u'---没有地址输入,使用默认地址:http://www.netbian.com/desk/14735-1920x1080.htm---')
url = 'http://www.netbian.com/desk/14735-1920x1080.htm'
print(u'----------正在获取网页代码---------')
html_code = get_html(url)
print(u'----------正在匹配图片并下载---------')
get_image(html_code)
print(u'-----------下载成功-----------')
input('回车键退出')
运行效果
一张漂亮的壁纸就下好了
html_code = page.read().decode("gbk")
注意你要爬的网站的编码格式, 一般是utf-8,但是彼岸桌面用的gbk。(注意更改即可)
reg = r'src="(.+?\.jpg)" title'
匹配条件:
匹配前面有 src=的,任意字符串+带.jpg格式后缀的链接,在title 前结束,
()代表匹配结果分组(一个网页源码里面有很多这样的字符串)