python爬取豆瓣网页短评实战！ - 代码天地

python爬取豆瓣网页短评实战！

其他 2018-09-26 19:50:56 阅读次数: 0

版权声明：@FengyangCoder所有 https://blog.csdn.net/FengyCoder/article/details/79616123

首先我们打开我的父亲母亲的网页界面：链接（https://book.douban.com/subject/20389038/comments/），可以观察到如下界面以及读者对本书的评价：

接下来我们直接附上代码：

# 书名：我的父亲母亲
# 作者:  [英] 多丽丝·莱辛
# 出版社: 南海出版公司
# 原作名: Alfred and Emily
# 译者: 匡咏梅
# 出版年: 2013-1
# 页数: 238
# 定价: 29.50元
# 装帧: 精装
# 丛书: 新经典文库·莱辛作品
# ISBN: 9787544263863


import requests
from lxml import etree
import pandas as pd
#通过观察的url翻页的规律，使用for循环得到10个链接，保存到urls列表中
urls=['https://book.douban.com/subject/20389038/comments/hot?p={}'.format(str(i)) for i in range(1, 11, 1)]

comments = [] #初始化用于保存短评的列表
for url in urls: #使用for循环分别获取每个页面的数据，保存到comments列表
    r = requests.get(url).text
    s = etree.HTML(r)
    file = s.xpath('//div[@class="comment"]/p/text()')
    comments = comments + file

df = pd.DataFrame(comments) #把comments列表转换为pandas DataFrame
df.to_excel('190.xlsx') #使用pandas把数据保存到excel表格

结果如下：

大家可以尝试更换网址对其它书籍的爬取，多动手实践，就可爬取更多公开的数据，并对其进行分析，不一样的惊喜等着你，只要你可努力。

猜你喜欢

转载自blog.csdn.net/FengyCoder/article/details/79616123

python爬取豆瓣网页短评实战！

Python爬取豆瓣指定书籍的短评

Python爬虫入门之豆瓣短评爬取

详解使用Python爬取豆瓣短评并绘制词云

python 爬取豆瓣电影短评并wordcloud生成词云图

python爬取豆瓣网花木兰短评

python实例：自动爬取豆瓣读书短评，分析短评内容

爬取豆瓣短评并输出词云

爬取豆瓣头号玩家短评

《恶魔人crybaby》豆瓣短评爬取

Scrapy实战篇（三）之爬取豆瓣电影短评

用python爬豆瓣电影《热烈》短评

Python爬虫（入门+进阶）学习笔记 1-3 使用Requests爬取豆瓣短评

python爬虫-爬取爱情公寓电影（2018）豆瓣短评并数据分析

python爬虫，爬取豆瓣电影《芳华》电影短评，分词生成云图。

python爬虫，Scrapy爬取豆瓣电影《芳华》电影短评，分词生成词云图。

Python爬取豆瓣电影的短评数据并进行词云分析处理

批量爬取豆瓣短评并批量生成词云

简单爬取《小丑》电影豆瓣短评生成词云

初学爬取豆瓣哪吒之魔童降世短评

Python 爬取豆瓣

python3.6爬取豆瓣电影《我不是药神》的短评、去停用词、词云分析处理

Python爬虫实战：Scrapy豆瓣电影爬取

Python 爬取豆瓣TOP250实战

【python爬虫实战】爬取豆瓣影评数据

Python爬取豆瓣影评

Python 豆瓣mv爬取

python爬取豆瓣250

Python爬取豆瓣电影

python爬取豆瓣图片

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)