Python爬虫案例-下载极客学院图片

涉及到的库 re 、requests、urllib、os

安装库  pip install re 、pip install  requests  ....
Python 解释器 :pychram
目的:
1、保存网页源代码
2、Python读取文件加载源代码
3、正则表达式提取图片网址
4、下载图片 
步骤:
  一、拿到极客学院的网址的URL(百度一下)
  http://www.jikexueyuan.com/
  二、通过requests库,获取到极客学院首页的源代码
  requests.get(url)
  三、将获取的源代码,写入本地文件中
  1、先创建一个文本(txt文件)
  2、通过open 打开文件
  3、将源代码写入到文件中
  4、释放资源,关闭文件
	file_name='daima.txt'
file = open(file_name,'w')
file.write(txt)
file.close()
 5、查看是否写入成功
	打开daima.txt文件,查看文件中是否跟极客学院首页的源代码一致。

四、从文件中读取源代码,并通过正则表达式,进行模糊搜索,获取到图片的路径
 	file = open(file_name,'r')
	files = file.read()
	#获取首页中关于职业模块的图片,先通过正则获取整个职业模块,然后再获取单一图片的url
	images = re.findall('<div class="zhiye"(.*?)</div>',files,re.S)[0]
image_list = re.findall('<img src="(.*?)"',images,re.S)
for i in image_list:
		print i
file.close()
五、通过获取到的图片url,将图片下载到本地,并以图片url的进行命名下载
	https://jiuye-res.jikexueyuan.com/zhiye/showcase/attach-/20171101/b12ae422-fd63-4b7d-a0d3-13c3ab4479c5.jpg
	1、通过split进行切片获取到图片的后缀(b12ae422-fd63-4b7d-a0d3-13c3ab4479c5.jpg)
	2、下载路径
	3、图片下载
	lista = num.split('/')
a=lista.pop()
path = os.path.join('image',a)
urllib.urlretrieve(num,path)
代码:https://gitee.com/weight_ting/Python_case_jikexueyuan_downimage/tree/master/jkxy1

猜你喜欢

转载自www.cnblogs.com/ting0623/p/9081341.html