python爬图第一天

七亿少女的劫丨

1.代码

import urllib
import re
import urllib.request


def get_html(url):
    page = urllib.request.urlopen(url)
    html_code = page.read().decode("gbk")
    return html_code


def get_image(html_code):
    reg = r'src="(.+?\.jpg)" title'
    reg_img = re.compile(reg)
    img_list = reg_img.findall(html_code)
    x = 0
    print("匹配到", len(img_list), "个图片对象")
    for img in img_list:
        print(img)
        urllib.request.urlretrieve(img, '%s.jpg' % x)
        x += 1


print(u'-------网页图片爬取-------')
print(u'请输入url:', end=""),
url = input()
if url:
    pass
else:
    print(u'---没有地址输入，使用默认地址：http://www.netbian.com/desk/14735-1920x1080.htm---')
    url = 'http://www.netbian.com/desk/14735-1920x1080.htm'
print(u'----------正在获取网页代码---------')
html_code = get_html(url)

print(u'----------正在匹配图片并下载---------')
get_image(html_code)
print(u'-----------下载成功-----------')
input('回车键退出')

运行效果

一张漂亮的壁纸就下好了

 html_code = page.read().decode("gbk")

注意你要爬的网站的编码格式，一般是utf-8，但是彼岸桌面用的gbk。（注意更改即可）

 reg = r'src="(.+?\.jpg)" title'

匹配条件：
匹配前面有 src=的，任意字符串+带.jpg格式后缀的链接，在title 前结束，
（）代表匹配结果分组（一个网页源码里面有很多这样的字符串）

七亿少女的劫丨

到此结束了，源码里面写了list 支持爬多个图片，前提是有多个匹配到的链接（推荐贴吧里面的评论图哦）。

猜你喜欢

python爬图第一天

七亿少女的劫丨

到此结束了 ，源码里面写了list 支持爬多个图片，前提是有多个匹配到的链接（推荐贴吧里面的评论图哦）。

猜你喜欢

到此结束了，源码里面写了list 支持爬多个图片，前提是有多个匹配到的链接（推荐贴吧里面的评论图哦）。