Python 爬虫-豆瓣读书 - 代码天地

Python 爬虫-豆瓣读书

其他 2018-10-05 22:55:47 阅读次数: 0

import requests
from bs4 import BeautifulSoup
#有需要Python学习资料的小伙伴吗?小编整理【一套Python资料、源码和PDF】，感兴趣者可以加学习群：548377875，反正闲着也是闲着呢，不如学点东西啦~~

def parse_html(num):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    response = requests.get(f'https://book.douban.com/top250?start={num}', headers=headers)

    soup = BeautifulSoup(response.text, 'lxml')

    # 书名
    all_div = soup.find_all('div', class_='pl2')
    book_names = [div.find('a')['title'] for div in all_div]

    # 图书信息
    all_p = soup.find_all('p', class_='pl')
    book_infos = [p.get_text() for p in all_p]

    # 评分
    all_span = soup.find_all('span', class_='rating_nums')
    book_rates = [span.get_text() for span in all_span]

    # 简介
    all_quote = soup.find_all('span', class_='inq')
    book_inqs = [quote.get_text() for quote in all_quote]

    d = ''
    # 组合
    for name, info, rate, inq in zip(book_names, book_infos, book_rates, book_inqs):
        d = f'{d}书名：{name}\n作者：{info}\n评分：{rate}\n简介：{inq}\n=======================\n'

    return d


if __name__ == '__main__':
    data = ''
    for i in range(0, 250, 25):
        data = f'{data}{parse_html(i)}'

    filename = '豆瓣图书Top250.txt'
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(data)

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/82890316

Python 爬虫-豆瓣读书

Python爬虫——豆瓣读书

Python 爬虫抓取豆瓣读书TOP250

Python 豆瓣爬虫

python豆瓣电影爬虫

python爬虫练习之爬取豆瓣读书所有标签下的书籍信息

Python 爬虫获取豆瓣读书top250（含完整代码）

用Python爬虫爬取豆瓣电影、读书Top250并排序

Python爬虫豆瓣读书评分9分以上榜单

python爬虫-使用IP代理爬取豆瓣读书图书信息

Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析

python爬虫实战二：豆瓣读书top250爬取

Python爬取豆瓣读书

Python爬虫零基础（以爬豆瓣电影top250为例，尝试自己写爬豆瓣读书top250的代码）

python网络爬虫——正则表达式匹配豆瓣读书：新书速递——血泪踩坑史！！

【Python爬虫】听说你又闹书荒了？豆瓣读书9.0分书籍陪你过五一

python 爬虫（十）selenium+phantomjs请求页面流程 + selenium的三种等待 + 案例（豆瓣读书 + 腾讯招聘）

初试python爬虫之：豆瓣电影爬虫

Python 爬虫——模拟登陆豆瓣

python 爬虫豆瓣top250

python爬虫实现豆瓣模拟登录

Python爬虫——豆瓣下图书信息

python——爬虫（豆瓣top250）

python爬虫，爬取豆瓣电影信息

Python爬虫--使用cookies登录豆瓣网

python爬虫豆瓣推理书籍及链接

python爬虫——豆瓣电影Top250

【Python】从0开始写爬虫——豆瓣电影

python爬虫实践——爬取豆瓣电影

python爬虫爬取豆瓣电影信息

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)