python爬图第一天

七亿少女的劫丨

在这里插入图片描述
安装python3.7.1环境
python下载链接

安装开发工具PyCharm
PyCharm下载链接

1.代码

import urllib
import re
import urllib.request


def get_html(url):
    page = urllib.request.urlopen(url)
    html_code = page.read().decode("gbk")
    return html_code


def get_image(html_code):
    reg = r'src="(.+?\.jpg)" title'
    reg_img = re.compile(reg)
    img_list = reg_img.findall(html_code)
    x = 0
    print("匹配到", len(img_list), "个图片对象")
    for img in img_list:
        print(img)
        urllib.request.urlretrieve(img, '%s.jpg' % x)
        x += 1


print(u'-------网页图片爬取-------')
print(u'请输入url:', end=""),
url = input()
if url:
    pass
else:
    print(u'---没有地址输入,使用默认地址:http://www.netbian.com/desk/14735-1920x1080.htm---')
    url = 'http://www.netbian.com/desk/14735-1920x1080.htm'
print(u'----------正在获取网页代码---------')
html_code = get_html(url)

print(u'----------正在匹配图片并下载---------')
get_image(html_code)
print(u'-----------下载成功-----------')
input('回车键退出')

运行效果


一张漂亮的壁纸就下好了

 html_code = page.read().decode("gbk")

注意你要爬的网站的编码格式, 一般是utf-8,但是彼岸桌面用的gbk。(注意更改即可)

 reg = r'src="(.+?\.jpg)" title'

匹配条件:
匹配前面有 src=的,任意字符串+带.jpg格式后缀的链接,在title 前结束,
()代表匹配结果分组(一个网页源码里面有很多这样的字符串)

到此结束了 ,源码里面写了list 支持爬多个图片,前提是有多个匹配到的链接(推荐贴吧里面的评论图哦)。

猜你喜欢

转载自blog.csdn.net/weixin_43684896/article/details/84649836