涉及到的库 re 、requests、urllib、os
安装库 pip install re 、pip install requests ....
Python 解释器 :pychram
目的:
1、保存网页源代码
2、Python读取文件加载源代码
3、正则表达式提取图片网址
4、下载图片
步骤:
一、拿到极客学院的网址的URL(百度一下)
http://www.jikexueyuan.com/
二、通过requests库,获取到极客学院首页的源代码
requests.get(url)
三、将获取的源代码,写入本地文件中
1、先创建一个文本(txt文件)
2、通过open 打开文件
3、将源代码写入到文件中
4、释放资源,关闭文件
file_name='daima.txt'
file = open(file_name,'w')
file.write(txt)
file.close()
5、查看是否写入成功
打开daima.txt文件,查看文件中是否跟极客学院首页的源代码一致。
四、从文件中读取源代码,并通过正则表达式,进行模糊搜索,获取到图片的路径
file = open(file_name,'r')
files = file.read()
#获取首页中关于职业模块的图片,先通过正则获取整个职业模块,然后再获取单一图片的url
images = re.findall('<div class="zhiye"(.*?)</div>',files,re.S)[0]
image_list = re.findall('<img src="(.*?)"',images,re.S)
for i in image_list:
print i
file.close()
五、通过获取到的图片url,将图片下载到本地,并以图片url的进行命名下载
https://jiuye-res.jikexueyuan.com/zhiye/showcase/attach-/20171101/b12ae422-fd63-4b7d-a0d3-13c3ab4479c5.jpg
1、通过split进行切片获取到图片的后缀(b12ae422-fd63-4b7d-a0d3-13c3ab4479c5.jpg)
2、下载路径
3、图片下载
lista = num.split('/')
a=lista.pop()
path = os.path.join('image',a)
urllib.urlretrieve(num,path)
代码:https://gitee.com/weight_ting/Python_case_jikexueyuan_downimage/tree/master/jkxy1