【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓 - 代码天地

【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓

其他 2018-11-20 13:26:57 阅读次数: 0

版权声明：== https://github.com/fyonecon == https://blog.csdn.net/weixin_41827162/article/details/84036849

声明：爬虫为学习使用，请各位同学务必不要对当放网站或i服务器造成伤害。务必不要写死循环。

-

练习目标：爬取https://b.faloo.com/BuyBook.aspx?id=526024 《我的高中女友门》

-

解释请看代码注释：

主要是网页是xxx/1.html，xxx/2.html这种数字递增的网页；小说内容在id=content这个地方。

from bs4 import BeautifulSoup
import urllib.request


def down(url, num):

    # 获取网页
    response = urllib.request.urlopen(url)
    html = response.read().decode('gbk')  # 编码格式gb2312,utf-8,GBK
    html_string = str(html)  # 转换成string，可以直接向数据库添加

    soup = BeautifulSoup(html_string, "html.parser")  # 解析网页标签

    try:
        # 匹配抓取区域
        # pid = soup.find(attrs={"id": "content"})
        pid = str(soup.findAll('div', {"id": "content"})[0])
        print("当前页数=" + str(num))
        print(type(pid))

        # 将抓取区域保存至txt文件
        fh = open('我的高中女友们.txt', 'a', encoding='utf-8')  # 制定txt编码，避免中文编码解析报错。a可以持续写入文件，w每次会覆盖之前的内容
        fh.write(pid)
        fh.close()
        print("页数=" + str(num) + "写入完成")
    except:
        print("报错页数=" + str(num))

    pass


# 有多少个该小说网页
num = 1  # 开始页
while num <= 50:  # 结束页
    down("https://b.faloo.com/p/526024/" + str(num) + ".html", num)
    num += 1
    pass
else:
    print("完成")
    pass

-

-

猜你喜欢

转载自blog.csdn.net/weixin_41827162/article/details/84036849

【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓

【Python3爬虫-爬小说】爬取某小说网小说2/2--利用下一页抓

Python3爬取免费小说网小说

网络爬虫-爬取顶点小说网指定小说

Python爬虫系列之小说网爬取

Python爬虫实例(一)——爬取某点小说网《庆余年》

学习python3爬虫爬取静态小说网站

Python3中BeautifulSoup爬取笔趣阁小说网

python：免费看无广告小说之爬取全本免费小说网的小说

使用scrapy爬虫,爬取起点小说网的案例

爬虫练习——爬取纵横小说网

爬虫爬取小说网站

python爬虫，简单的爬取小说网站的阅读排名

Python的scrapy之爬取6毛小说网

python 爬取小说网站实战

Python爬取小说网站

python3爬虫-使用requests爬取起点小说

使用python3爬取小说

spider爬虫练习，爬取顶点小说网，小说内容。

Python3网络爬虫实战解析——静态小说网爬取（使用正则表达式解析）

python爬虫（1.爬盗版小说网站）

Python爬虫——爬取小说

python爬虫爬取笔趣网小说网站过程图解

Python3网络爬虫：使用Beautiful Soup爬取小说

1)python 爬取小说

爬取小说2--协程间通信Python

Python爬虫实战案例——某点小说爬取

Python实现某网站爬取小说（爬虫）

Python爬取小说

python 爬取小说

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)