需求:写一个Python程序,实现获取豆瓣阅读网页上的所有出版社名称,并储存在指定路径的txt文件中,如下:
准备:观察该网页的源代码,注意到每个出版社名称都由固定格式的div所包裹,如下:
编写代码:
import urllib.request
data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8") #注意对汉字要进行编码
import re
pat='<div class="name">(.*?)</div>'
mydata=re.compile(pat).findall(data)
#得到一个数组mydata:['博集天卷', '北京邮电大学出版社',........]
fh=open("F:/22.txt","w")
for i in range(0,len(mydata)):
fh.write(mydata[i]+"\n")
fh.close()
结果: