Python数据挖掘学习笔记（5）爬取豆瓣阅读的出版社名称数据 - 代码天地

Python数据挖掘学习笔记（5）爬取豆瓣阅读的出版社名称数据

编程语言 2018-09-08 18:08:49 阅读次数: 0

需求：写一个Python程序，实现获取豆瓣阅读网页上的所有出版社名称，并储存在指定路径的txt文件中，如下：

准备：观察该网页的源代码，注意到每个出版社名称都由固定格式的div所包裹，如下：

编写代码：

import urllib.request
data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8")  #注意对汉字要进行编码
import re
pat='<div class="name">(.*?)</div>'
mydata=re.compile(pat).findall(data)
#得到一个数组mydata：['博集天卷', '北京邮电大学出版社',........]
fh=open("F:/22.txt","w")
for i in range(0,len(mydata)):
	fh.write(mydata[i]+"\n")
fh.close()

结果：

感谢韦玮老师的指导

猜你喜欢

转载自blog.csdn.net/Smart3S/article/details/82430697

Python数据挖掘学习笔记（5）爬取豆瓣阅读的出版社名称数据

python爬取豆瓣出版社

python之简单爬虫（爬取豆瓣出版社）

python学习，爬去豆瓣出版社

简单爬虫--爬取豆瓣阅读出版社信息并保存

【python数据挖掘】爬取豆瓣影评数据

爬取豆瓣出版社列表并写入文件中

Python爬虫案例1——豆瓣出版社爬取并写入文件

简单利用Python爬取豆瓣网某网页的出版社信息

图书管理程序设计设计结构体数组，结构中包含数据为：图书编号、图书名称、作者姓名，出版社名、出版日期。设计各个函数

python爬虫 - 爬取豆瓣上的数据

Python数据挖掘学习笔记（9）爬取新浪新闻首页的所有新闻

Python数据挖掘学习笔记（10）爬取CSDN资讯页的所有新闻

爬取豆瓣top250音乐时长出版商存入Mongo数据库

图书管理程序设计设计结构体数组，结构中包含数据为：图书编号、图书名称、作者姓名，出版社名、出版日期。设计各个函数，分别实现以下功能：（1）完成图书信息的输入并将录入的图书按书名的字母顺序排序（2

[笔记]R语言爬虫入门——豆瓣新片数据爬取

Python爬虫笔记：爬取豆瓣图书TOP250单页数据

python 爬取豆瓣网搜索结果同城活动数据

python系列之（3）爬取豆瓣图书数据

【python爬虫实战】爬取豆瓣影评数据

python爬虫爬取豆瓣电视剧数据

实例学习——爬取豆瓣网TOP250数据

豆瓣Top250电影数据爬取学习

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

python网络爬虫——爬取人民邮电出版社新书推荐信息

豆瓣书籍数据爬取与分析

爬取豆瓣网电影的数据信息

Java爬取豆瓣电影数据

爬取豆瓣新热门电影数据

爬取豆瓣电影 Top 250 数据

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)