python爬取网页所有课程图片实例

import re
import requests

# 读取源代码文件
f = open('source.txt','r')
html = f.read()
f.close()

# 获取网页源代码(字符编码有问题)
# r = requests.get('http://www.jikexueyuan.com/course/python/?pageNum=1')
# html = str(r.text)

# 匹配图片网址,并进行下载
pic_url = re.findall('img src="(.*?)" class="lessonimg"',html,re.S)
i = 0
for each in pic_url:
    print('now downloading:' + each)
    pic = requests.get(each)
    fp = open('E://pics//' + str(i) + '.jpg','wb')
    fp.write(pic.content)
    fp.close()
    i = i+1

print('all have downloaded')

以上的代码利用正则表达式,和request库一个简单的应用,实现了爬取网页的所有课程图片。
注:source.txt文件是手动复制的包含图片url的链接的网页源代码

猜你喜欢

转载自blog.csdn.net/qq_40258748/article/details/87923358