爬虫之爬取豆瓣图书的评论 - 代码天地

爬虫之爬取豆瓣图书的评论

其他 2018-11-10 19:57:50 阅读次数: 0

from urllib import request
from bs4 import BeautifulSoup as bs

#爬取豆瓣最受关注图书榜
resp = request.urlopen('https://book.douban.com/chart?subcat=I')
html_data = resp.read().decode('utf-8')

#转化为BeautifulSoup对象
soup = bs(html_data,'html.parser')

#搜索最受关注的图书列表
topchart_book =soup.find_all('ul',class_='chart-dashed-list')

#搜索列表中所有图书
topchart_book_list = topchart_book[0].find_all('li',class_='media clearfix')

#新建数组用于存放后续的数据
topchart_list = []

#遍历图书馆列表，从中过滤出我们所需的信息
for item in topchart_book_list:
    #新建字典用于存放我们的图书信息，之后可用class来存储
    topchart_dict = {}

    #搜索到具体信息的位置
    book_item = item.find('a',class_='fleft')

    #得到图书ID
    topchart_dict['id'] = book_item['href'].split('/')[4]   

    #得到图书名称
    topchart_dict['name'] = book_item.getText().replace('\t','').replace('\n','').replace(' ','')  #图书名字
    
    #将图书信息加入到数组中
    topchart_list.append(topchart_dict)
# print(topchart_list)

#拼接出图书对应的详情页
requrl = 'https://book.douban.com/subject/'+topchart_list[0]['id']+'/comments/hot'+'?'+'p-1'

#爬取热门第一页中的评论信息
resp = request.urlopen(requrl)
html_data = resp.read().decode('utf-8')
soup = bs(html_data,'html.parser')

#搜索到评论所在div
comment_div_lits = soup.find_all('div',class_='comment')

#新建数组用于存放评论信息
eachCommentList = []

for item in comment_div_lits:
    if item.find_all('p')[0].string is not None:
        eachCommentList.append(item.find_all('p')[0].string)
print(eachCommentList)

猜你喜欢

转载自www.cnblogs.com/lsm-boke/p/9940313.html

爬虫之爬取豆瓣图书的评论

爬虫之爬取豆瓣图书名字及ID

爬虫之爬取豆瓣热门图书的名字

Python爬取豆瓣网图书评论

爬取豆瓣读书的图书信息和评论信息

Python爬虫之豆瓣电影评论数据的爬取（十四）

python爬虫 — 爬取豆瓣最受关注图书榜

【爬虫】爬取豆瓣图书TOP250

【python爬虫实例】爬取豆瓣图书及信息

xlwt在爬虫中的实战（爬取豆瓣图书）

爬虫实战_爬取豆瓣图书利用csv库存储

爬取豆瓣电影的评论

爬虫之爬取豆瓣电影的名字

Python爬虫爬取豆瓣电影评论内容，评论时间和评论人

python系列之（3）爬取豆瓣图书数据

网络爬虫之豆瓣评论

电影芳华豆瓣评论爬取

用requests 爬取豆瓣书评的评论

爬取豆瓣图书TOP250

豆瓣爬取图书标签

requests+beautifulsoup爬取豆瓣图书

爬取豆瓣的最新推荐图书

Python爬虫之爬取豆瓣电影（一）

Python爬虫之爬取豆瓣电影（二）

python之简单爬虫（爬取豆瓣出版社）

Python网络爬虫学习之爬取豆瓣电影（四）

Python爬虫入门之豆瓣短评爬取

python爬虫之爬取豆瓣电影top250

使用scrapy编写爬虫：爬取豆瓣Top250读书的评论

爬虫---实现爬取电影资料和电影评论（豆瓣）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)