python爬取豆瓣网页短评实战!

版权声明:@FengyangCoder所有 https://blog.csdn.net/FengyCoder/article/details/79616123

首先我们打开我的父亲母亲的网页界面:链接(https://book.douban.com/subject/20389038/comments/),可以观察到如下界面以及读者对本书的评价:


接下来我们直接附上代码:

# 书名:我的父亲母亲
# 作者:  [英] 多丽丝·莱辛
# 出版社: 南海出版公司
# 原作名: Alfred and Emily
# 译者: 匡咏梅
# 出版年: 2013-1
# 页数: 238
# 定价: 29.50元
# 装帧: 精装
# 丛书: 新经典文库·莱辛作品
# ISBN: 9787544263863


import requests
from lxml import etree
import pandas as pd
#通过观察的url翻页的规律,使用for循环得到10个链接,保存到urls列表中
urls=['https://book.douban.com/subject/20389038/comments/hot?p={}'.format(str(i)) for i in range(1, 11, 1)]

comments = [] #初始化用于保存短评的列表
for url in urls: #使用for循环分别获取每个页面的数据,保存到comments列表
    r = requests.get(url).text
    s = etree.HTML(r)
    file = s.xpath('//div[@class="comment"]/p/text()')
    comments = comments + file

df = pd.DataFrame(comments) #把comments列表转换为pandas DataFrame
df.to_excel('190.xlsx') #使用pandas把数据保存到excel表格


结果如下:


大家可以尝试更换网址对其它书籍的爬取,多动手实践,就可爬取更多公开的数据,并对其进行分析,不一样的惊喜等着你,只要你可努力。

猜你喜欢

转载自blog.csdn.net/FengyCoder/article/details/79616123