使用requests+re来爬取豆瓣图书！入门级爬虫案例教程！ - 代码天地

使用requests+re来爬取豆瓣图书！入门级爬虫案例教程！

其他 2020-04-07 15:43:02 阅读次数: 0

这两天在知识星球上有球友在使用requests+re来爬豆瓣图书的链接，书名及作者遇到了问题，虽然当时很快给他解决了，但由于我之前没有写这方面的文章，所以临时决定补一篇这样的文章。

首先需要说明的是，在数据抓取的时候，肯定是优先使用xpath，如果xpath不行再考虑正则或者bs4，因为xpath简单且高效!

概念性的东西这里就不说了，我们直接来实战，这里只简单说明一下，详细的需要自己去查一下资料！

要爬取的图书内容：

爬取到的数据

. 可以匹配除换行符外的字符re* 表示匹配0个或多个表达式re？匹配0个或多个由前面正则表达式定义的片段，非贪婪模式,且只匹配前一个

首先我们需要完全抓取，所以我们要使用re.findall方法，又因为数据全部在<li class>中,需要只需要对这个里面数据处理
然后每一列来匹配 <li class> 因为还需要向后匹配查找，所以需要添加.*? 匹配一次,非贪婪模式. 等等匹配到cover下面的目录，我们可以匹配到href,获取再匹配标题，但alt包含标题，所以这里直接来提取alt="(.*?)",
接着需要提取数据出来这里使用(.*?) 把数据提出来，这里有多个数据需要提取，然后用数组呈现出来
更多有趣代码案例教程加群：850591259

完整代码

import requests
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

url = 'https://book.douban.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)\
Chrome/55.0.2883.87 Safari/537.36'}
html = requests.get(url, headers=headers)
html.encoding = 'utf-8'
# 这里我只取了链接与标题
patter = re.compile('<li class.*?cover.*?href="(.*?)".*?alt="(.*?)".*?<p class="author".*?>(.*?)</p>', re.S)
titles = re.findall(patter, html.text)
for each in titles:
    print '书籍链接:{},书籍标题：{},---书籍作者：{}'.format(each[0], each[1],each[2].str

爬遍天下无敌手

发布了5 篇原创文章 · 获赞 0 · 访问量 4220

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43881394/article/details/105245336

使用requests+re来爬取豆瓣图书！入门级爬虫案例教程！

requests+re爬取豆瓣电影top100

python使用requests+re简单入门爬虫

Requests+re爬虫框架爬取教务系统课程信息

requests+beautifulsoup爬取豆瓣图书

Python爬虫（入门+进阶）学习笔记 1-3 使用Requests爬取豆瓣短评

爬虫之爬取豆瓣图书的评论

requests+re(正则)之猫眼top100排名信息爬取

爬取校花图片保存到本地文件夹下（requests+re）

案例学python——案例三：豆瓣电影信息入库一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

scrapy爬取豆瓣top250并插入到MySQL数据库（入门级）

小杰的学习过程之requests+re(正则)之猫眼top100排名信息爬取

Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

python爬虫实践——零基础快速入门（三）爬取豆瓣图书

python爬虫-使用IP代理爬取豆瓣读书图书信息

python爬虫 — 爬取豆瓣最受关注图书榜

爬虫之爬取豆瓣热门图书的名字

爬虫之爬取豆瓣图书名字及ID

【爬虫】爬取豆瓣图书TOP250

【python爬虫实例】爬取豆瓣图书及信息

xlwt在爬虫中的实战（爬取豆瓣图书）

爬虫实战_爬取豆瓣图书利用csv库存储

【Python】爬虫入门级实战讲解：爬取商城的商品名称及价格

python爬虫之爬取壁纸（新手入门级）

Python爬虫最入门的教程案例：爬取糗百

使用requests爬取豆瓣电影top250

用Requests和正则表达式爬取豆瓣图书TOP250

python采用requests+bs4爬取豆瓣top250图书信息

一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

python3 scrapy 入门级爬虫爬取数万条拉勾网职位信息

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)