爬取小说案例-斗破苍穹（原创） - 代码天地

爬取小说案例-斗破苍穹（原创）

其他 2020-08-15 10:18:18 阅读次数: 0

有时候看小说还要在网页看，下载还要付费，所以我用python直接下载好文件，传在手机就可以看，非常的方便，所以我就拿大家比较熟知的电子书斗破苍穹为例子提供大家参考

这个操作需要的工具：python3版本以上

一个编辑器建议：pycharm

第三方库：request os re

还要一个会粘贴复制而手

话不多说，代码在下面，需要的小伙伴拿去用吧

# 第三方库引用
import requests
import re
import os
import time
# 数据存放目录   会用到os库
if not os.path.exists('斗破苍穹'):
    os.makedirs('斗破苍穹')

# 请求头  会用到requests库
dou_1_url = "http://www.xbiquge.la/7/7877/"
headers = {
    'Host': 'www.xbiquge.la',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
}
response = requests.get(dou_1_url, headers=headers)
response.encoding = response.apparent_encoding
result_1 = response.text
# print(result_1)

# 正则表达式   提取目录 用到re库
result_2 = re.findall("<dd><a href='/7/7877/(.*?)' >(.*?)</a></dd>", result_1)
# print(result_2)

# 提取名字和网址
for url_, name in result_2:
    dou_2_url = dou_1_url + url_
    # print(name, dou_2_url)
    # 响应提取的网址
    time.sleep(0.5)
    response_ = requests.get(dou_2_url, headers=headers)
    response_.encoding = response_.apparent_encoding
    result_3 = re.findall('&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<br /><br /><p><a', response_.text, re.S)

    # 保存
    with open('斗破苍穹\\'+name, mode='w', encoding='utf-8')as f:
        f.write(result_3[0].replace('<br />', '').replace('&nbsp;', ''))
        print('正在下载：', name)
print('end')

猜你喜欢

转载自blog.csdn.net/Green_F/article/details/107784240

爬取小说案例-斗破苍穹（原创）

爬取《斗破苍穹》小说

实例学习——爬取《斗破苍穹》全文小说

爬虫练习-爬取《斗破苍穹》全文小说

python爬虫爬取《斗破苍穹》小说(入门必备)

python网络爬虫-爬取《斗破苍穹》全文小说源码

简单爬虫爬取知音漫客VIP漫画【斗破苍穹、斗罗大陆】

斗破苍穹

《斗破苍穹》词云

爬取斗罗大小说全文

python 斗破苍穹词云

斗破苍穹文本分词

基于html的动漫主题-斗破苍穹

正则表达式、re模块以及《斗破苍穹》案例学习

Python爬取小说《斗罗大陆》

爬虫小案例——爬取网站小说

你不知道的斗破苍穹之python篇

用python的re库统计《斗破苍穹》词频

jieba分词+wordcloud——《斗破苍穹》词云

小游戏——斗破苍穹——pow_na的博客

斗破苍穹算法——萧炎的成长之路（二）

斗破苍穹算法版—萧炎的成长之路（一）

java动漫爬虫：斗罗大陆1、斗罗大陆2、斗破苍穹

Python爬虫实战(2)-爬取小说"斗罗大陆3龙王传说”(超详细)

Python爬虫 | 爬取全书网小说斗罗大陆

使用scrapy爬虫,爬取起点小说网的案例

Python爬虫初级案例——爬取网络小说

Python爬虫基础入门实战案例（爬取网站小说）

Python爬虫实战案例——某点小说爬取

小说爬取

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)