简单利用Python爬取豆瓣网某网页的出版社信息 - 代码天地

简单利用Python爬取豆瓣网某网页的出版社信息

其他 2020-01-27 21:56:48 阅读次数: 0

真的有好久好久没有写博客了，今天就随便写一个吧，利用简单的Python知识爬取某网页的文本信息并写入到本地

代码如下


import urllib.request
import re

'''
豆瓣出版社信息爬取

实际上爬虫需要几个步骤：
        1.明确目标（要知道你准备在哪个范围或者网站去爬取数据）
        2.爬（将网站的全部内容爬取下来）
        3.取（从爬取的全部数据中取到有价值的信息，或者换一句话说，就是舍弃掉无用的数据）
        4.处理数据（按照我们想要的方式存储和使用，本地存储或者数据库存储）
        
        <div class="name">北京邮电大学出版社</div>
        <div class="name">百花洲文艺出版社</div>
        <div class="name">电子工业出版社</div>
'''

# 爬取网页源代码
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8")
# print(data)

# 使用正则表达式，从源码中匹配出有价值的信息（出版社名称）
pat = '<div class="name">{.*?}</div>'
result = re.compile(pat).findall(data)
print(len(result))
print(result)

# 将爬取到的出版社信息保存到本地
file = open("chuabnshe.txt","w",encoding="utf-8")
for i in range(0,len(result)):
    file.write(result[i] + "\n")

print("写入成功！")
file.close()

fungnotl

发布了25 篇原创文章 · 获赞 8 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/FungLi_notLove/article/details/86382934

简单利用Python爬取豆瓣网某网页的出版社信息

python之简单爬虫（爬取豆瓣出版社）

python爬取豆瓣出版社

简单爬虫--爬取豆瓣阅读出版社信息并保存

爬取豆瓣出版社列表并写入文件中

Python爬虫案例1——豆瓣出版社爬取并写入文件

python学习，爬去豆瓣出版社

python网络爬虫——爬取人民邮电出版社新书推荐信息

Python数据挖掘学习笔记（5）爬取豆瓣阅读的出版社名称数据

简单出版社系统页面展示

爬取豆瓣网电影的数据信息

python爬虫爬取虎牙数据（简单利用requests库以及Beautifulsoup）

新增出版社：

删除出版社：

简单爬虫爬取豆瓣电影信息

python爬取豆瓣网页短评实战！

python爬虫，爬取豆瓣电影信息

python爬虫爬取豆瓣电影信息

JS新手案例---出版社信息

利用python爬取贝壳网租房信息

python爬取网页信息

python爬取简单网页

Python--day62--使用Bootstrap样式的出版社

Python--day62--删除出版社

Python--day62--编辑出版社功能

流畅的 Python 人民邮电出版社

中国出版社排名

简单python爬虫爬取拉勾网职位信息

爬取豆瓣网图书TOP250的信息

Python 爬取豆瓣

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)