python爬虫——爬起点中文网小说 - 代码天地

python爬虫——爬起点中文网小说

其他 2018-06-30 05:36:43 阅读次数: 0

（一）项目目标

本次要练习的目标时起点中文网里面的免费小说。

1. 如下图，找到免费小说的目录：

2. 点击更多后，随便找一本免费小说打开：

3. 点击中间的目录按钮，进入小说目录：

可以看到，该小说一共有83章，这就是本次目标。

（二）网页分析

1. 在目录页中点击一章，进入阅读页面，并同时检查网络，查看内容来源。

请注意下图中标注的三个部分：

2. 这样，我们找到了获取内容的请求。下面仔细分析该请求：

从上面截图可以看到，请求的类型是GET，url与页面url相同。

这样，只要通过页面url就能拿到小说这一章的数据。

那么，其他章的url从哪里可以获取呢？

3. 还是回到最初的目录页，审查元素，发现其中包含了所有章节的相对url。

4. 至此，网页分析完毕。思路如下：

- 通过目录页，拿到所有章节页面url

- 通过章节页面url，拿到小说原文。

(三) 核心代码实现

本次代码比较简单，我是直接用jupyter写的，下面将jupyter代码页面直接粘贴如下：

（四）结果展示

由于内容不多，大概程序在20秒左右执行完毕，打开Mongodb查看，爬取结果如下：

猜你喜欢

转载自blog.csdn.net/weixin_41796207/article/details/80853797

python爬虫——爬起点中文网小说

小爬虫爬起点中文网收藏榜

python 3 爬起点中文网，简单分析

抓取起点中文网小说

爬虫(一) java爬取起点中文网小说

网络爬虫&起点中文网完本榜500部小说

爬虫练习-爬取起点中文网小说信息

【爬虫实战】起点中文网小说的爬取

python 爬取起点中文网的小说(学习记录)

Python爬虫进阶之起点中文网字体反扒保姆级教程！！！

起点中文网小说爬取-etree，xpath，os

字体文件反反爬-- 起点中文网

xpath之起点中文网案例练习

网络爬虫之字体加密混淆：起点中文网

Python爬虫框架Scrapy入门（二）第一个爬虫程序：使用xpath爬取起点中文网

python爬虫，爬起点小说网小说

爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字，作者，等一些基本信息，并存入csv中

Scrapy抓取起点中文网排行榜

爬取起点中文网字体反爬取

Python3爬取起点中文网阅读量信息，解决文字反爬~~~附源代码

Scrapy 爬取起点中文网存储到 MySQL 数据库（自定义 middleware）

一周搞定scrapy之3，将爬取到的起点中文网信息保存到mysql

5月第4周业务风控关注 |晋江文学城遭查处，起点中文网部分栏目停更

【历史上的今天】5 月 15 日：Mozilla 发布 Rust；起点中文网成立；Windows 启动音乐设计者出生

爬起点免费小说

一周搞定scrapy之第一天--爬取起点中文小说网

用python爬虫简单爬取笔趣网：类“起点网”的小说

网络字体反爬之pyspider爬取起点中文小说

爬起点

使用scrapy爬虫,爬取起点小说网的案例

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)