python之简单爬虫（爬取豆瓣出版社） - 代码天地

python之简单爬虫（爬取豆瓣出版社）

其他 2018-05-30 13:17:21 阅读次数: 1

环境准备：
1.python 3.0+
2.豆瓣出版社网址 https://read.douban.com/provider/all

ok，开始我们的实验
1.打开浏览器，输入网址，右击网页，查看网页源码，这里我用的是谷歌浏览器
这里写图片描述
2.看上图我们发现许多出版社名称，接下来我们查找一个出版社名称，例如重庆大学
观察下图我们发现它们都在一个div标签内，且class=”name” ,所以，我们开始编写代码

3.代码

import urllib.request
import re
import os
url = "https://read.douban.com/provider/all"  #获取url
pat = '<div class="name">(.*?)</div>'  #匹配规则
data = urllib.request.urlopen(url).read().decode("utf-8") #读取网页的内容并解码
relut = re.compile(pat).findall(data)       #会返回一个列表
file = open(r"C:\Users\123\豆瓣出版社.txt", "w", encoding="utf-8")  #这里我定义了一个自己的存储路径，大家可以根据自己的路径修改
for i in relut:
    file.write(i)        #将出版社名称写入文件
    file.write("\n")    #表示换行

4.最后在你的存储目录下打开文件就可以查看内容了！

这里写图片描述

猜你喜欢

转载自blog.csdn.net/key_book/article/details/80244033

python之简单爬虫（爬取豆瓣出版社）

python爬取豆瓣出版社

简单爬虫--爬取豆瓣阅读出版社信息并保存

Python爬虫案例1——豆瓣出版社爬取并写入文件

简单利用Python爬取豆瓣网某网页的出版社信息

爬取豆瓣出版社列表并写入文件中

python学习，爬去豆瓣出版社

python网络爬虫——爬取人民邮电出版社新书推荐信息

Python数据挖掘学习笔记（5）爬取豆瓣阅读的出版社名称数据

简单出版社系统页面展示

Python爬虫之爬取豆瓣电影（一）

Python爬虫之爬取豆瓣电影（二）

Python网络爬虫学习之爬取豆瓣电影（四）

Python爬虫入门之豆瓣短评爬取

python爬虫之爬取豆瓣电影top250

简单爬虫爬取豆瓣电影信息

新增出版社：

删除出版社：

爬虫之爬取豆瓣电影的名字

爬虫之爬取豆瓣图书的评论

python爬虫，爬取豆瓣电影信息

python爬虫实践——爬取豆瓣电影

python爬虫爬取豆瓣电影信息

python爬虫 - 爬取豆瓣上的数据

Python爬虫--爬取豆瓣电影

Python--day62--删除出版社

Python--day62--编辑出版社功能

Python--day62--使用Bootstrap样式的出版社

流畅的 Python 人民邮电出版社

中国出版社排名

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)