Python数据挖掘学习笔记(5)爬取豆瓣阅读的出版社名称数据

需求:写一个Python程序,实现获取豆瓣阅读网页上的所有出版社名称,并储存在指定路径的txt文件中,如下:

准备:观察该网页的源代码,注意到每个出版社名称都由固定格式的div所包裹,如下:

编写代码:

import urllib.request
data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8")  #注意对汉字要进行编码
import re
pat='<div class="name">(.*?)</div>'
mydata=re.compile(pat).findall(data)
#得到一个数组mydata:['博集天卷', '北京邮电大学出版社',........]
fh=open("F:/22.txt","w")
for i in range(0,len(mydata)):
	fh.write(mydata[i]+"\n")
fh.close()

结果:

感谢韦玮老师的指导

猜你喜欢

转载自blog.csdn.net/Smart3S/article/details/82430697
今日推荐