requests+beautifulsoup爬取豆瓣图书 - 代码天地

requests+beautifulsoup爬取豆瓣图书

其他 2018-12-26 09:07:58 阅读次数: 0

使用Xpath和BeautifulSoup来解析网页可以说真的很简便。

import requests
from bs4 import BeautifulSoup
from random import choice

url = 'https://book.douban.com/tag/%E7%BC%96%E7%A8%8B'
ua = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"
headers = {'User-Agent': ua}

with open('hosts') as f:
    proxies = [proxy.strip() for proxy in f.readlines()]

    with requests.get(url, headers, proxies={"http": choice(proxies)}) as resp:
        soup = BeautifulSoup(markup=resp.text, features='lxml')
        # //li[@class="subject-item"]//h2/a/text()
        # //li[@class="subject-item"]//span[@class="rating_nums"]/text()
        books = soup.select('.subject-item')
        # print(books)

        for book in books:
            # print(book.select('h2 a'))
            title = ''.join(map(lambda x: x.strip(), book.select('h2 a')[0].text))  # 合并副标题
            rate = book.select('.rating_nums')[0].text
            print(title, rate)

解析结果:

计算机程序的构造和解释:原书第2版 9.5
编码:隐匿在计算机软硬件背后的语言 9.2
代码大全（第2版） 9.3
深入理解计算机系统 9.5
C程序设计语言:第2版·新版 9.4
算法导论（原书第2版） 9.3
算法（第4版） 9.4
JavaScript高级程序设计（第3版） 9.3
黑客与画家:硅谷创业之父PaulGraham文集 8.8
集体智慧编程 9.0
编程珠玑:第2版 9.1
Java编程思想（第4版） 9.1
Python编程：从入门到实践:从入门到实践 9.1
C++Primer中文版（第4版） 9.2
流畅的Python 9.5
程序员的自我修养:链接、装载与库 8.8
UNIX环境高级编程:第2版 9.4
Python编程快速上手:让繁琐工作自动化 9.0
程序员修炼之道:从小工到专家 8.6
重构:改善既有代码的设计 9.0

猜你喜欢

转载自www.cnblogs.com/keithtt/p/10177262.html

requests+beautifulsoup爬取豆瓣图书

使用requests+BeautifulSoup爬取龙族V小说

猫眼电影爬取(二)：requests+beautifulsoup，并将数据存储到mysql数据库

Python爬虫学习三------requests+BeautifulSoup爬取简单网页

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例

ython 从零开始爬虫(三)：实战：requests+BeautifulSoup实现静态爬取

python获取网页page数，同时按照href批量爬取网页（requests+BeautifulSoup）

Python爬虫自学之第（③）篇——实战：requests+BeautifulSoup实现静态爬取

爬虫实战：Requests+BeautifulSoup 爬取京东内衣信息并导入表格（python）

爬取豆瓣电影数据（requests，基于lxml的BeautifulSoup，json）

requests+BeautifulSoup详解

爬取58同城二手电脑一页的商品数据，requests+BeautifulSoup

用Requests和正则表达式爬取豆瓣图书TOP250

使用requests+re来爬取豆瓣图书！入门级爬虫案例教程！

python采用requests+bs4爬取豆瓣top250图书信息

使用BeautifulSoup去爬取豆瓣图片

BeautifulSoup爬取豆瓣电影排名

爬取豆瓣图书TOP250

爬虫之爬取豆瓣图书的评论

豆瓣爬取图书标签

爬取豆瓣的最新推荐图书

requests与BeautifulSoup爬取网页图片

python爬虫爬取招聘（ requests，BeautifulSoup）

使用requests+BeautifulSoup的简单爬虫练习

python3 爬虫（requests+BeautifulSoup）

用requests 爬取豆瓣书评的评论

requests模块之爬取豆瓣电影

requests用法之爬取豆瓣排行

爬取豆瓣电影Top250和和豆瓣图书

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)