python爬虫，简单的爬取小说网站的阅读排名 - 代码天地

python爬虫，简单的爬取小说网站的阅读排名

其他 2020-02-20 11:29:16 阅读次数: 0

现在大部分网站感觉都上了反扒的东西，直接写底层很难得到准确结果

首先要安装requests,lxml
pip方式：

pip install requests
pip install lxml

具体代码：

import requests
from lxml import etree

#构造自己的数据结果类
class xuanhuan:
    def __init__(self,ranking,name,numOfWords):
        self.ranking = ranking
        self.name = name
        self.numOfWords = numOfWords

html = requests.get('http://top.hengyan.com/xuanhuan')
selector = etree.HTML(html.text)
position = '/html/body/div[2]/div[2]/div[3]/ul[2]'
#/html/body/div[2]/div[2]/div[3]     /ul[2]/li[3]
#/html/body/div[2]/div[2]/div[3]     /ul[3]/li[3]

#使用xpath来进行筛选结果，将html解析成树，比直接用正则表达式及简单。
content = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul')
#循环遍历其中的元素
for i in range(1,len(content)+1):
    ranking = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul['+str(i)+']/li[1]/text()')
    name = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul['+str(i)+']/li[3]/text()')
    numOfWords = selector.xpath('/html/body/div[2]/div[2]/div[3]/ul['+str(i)+']/li[4]/text()')
    newXuanHuan = xuanhuan(ranking,name,numOfWords)
    print(newXuanHuan.ranking,end=' ')
    print(newXuanHuan.name,end=' ')
    print(newXuanHuan.numOfWords)

运行结果：

在这里插入图片描述

胜天半子_王二_王半仙

发布了157 篇原创文章 · 获赞 167 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_40666620/article/details/102885429

python爬虫，简单的爬取小说网站的阅读排名

爬虫爬取小说网站

python 爬取小说网站实战

Python爬取小说网站

scrapy爬虫-爬取wattpad外网小说网站

学习python3爬虫爬取静态小说网站

python爬虫爬取笔趣网小说网站过程图解

python爬虫爬取小说网站并转换为语音文件

Python爬虫系列之小说网爬取

python爬虫（1.爬盗版小说网站）

Python爬虫新手入门教学（十四）：爬取有声小说网站数据

Python爬虫爬取网站小说

python爬虫之爬取网站小说

python爬虫爬取网站小说

网络爬虫-爬取顶点小说网指定小说

【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓

爬虫爬取小说网站的内容，并将各章节输出到各txt文件

Python爬取小说网站，没有什么是Python不能做的！

Python爬虫实例(一)——爬取某点小说网《庆余年》

使用scrapy爬虫,爬取起点小说网的案例

爬虫练习——爬取纵横小说网

Python爬取小说网站页面制作电子书

利用python的requests和BeautifulSoup库爬取小说网站内容

Python利用创建1000个线程爬取盗版小说网站！并按章节排序！

Python爬虫实战-小说网站爬虫开发

Python的scrapy之爬取6毛小说网

(二）Python爬虫笔记--爬取网站小说

Python爬虫基础入门实战案例（爬取网站小说）

Python实现某网站爬取小说（爬虫）

Python爬虫——爬取小说

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)