import re
import requests
# 读取源代码文件
f = open('source.txt','r')
html = f.read()
f.close()
# 获取网页源代码(字符编码有问题)
# r = requests.get('http://www.jikexueyuan.com/course/python/?pageNum=1')
# html = str(r.text)
# 匹配图片网址,并进行下载
pic_url = re.findall('img src="(.*?)" class="lessonimg"',html,re.S)
i = 0
for each in pic_url:
print('now downloading:' + each)
pic = requests.get(each)
fp = open('E://pics//' + str(i) + '.jpg','wb')
fp.write(pic.content)
fp.close()
i = i+1
print('all have downloaded')
以上的代码利用正则表达式,和request库一个简单的应用,实现了爬取网页的所有课程图片。
注:source.txt文件是手动复制的包含图片url的链接的网页源代码