笔趣阁小说优化版 - 代码天地

笔趣阁小说优化版

其他 2018-12-14 13:07:02 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/mjp_erhuo/article/details/83054057

#-*-coding:utf-8-*-
# 笔趣阁
import requests
from lxml import etree

def url_processing(url):   # 网址处理函数
    if requests.get(url).status_code > 200 and requests.get(url).status_code < 300:
        print('网址输入错误请重新输入,返回的状态码为%s' % (requests.get(url).status_code))
        return []
    else:
        print('正在打开',url)
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36'}
        res = requests.get(url=url, headers=headers)
        html = res.text
        return html

def extract(html):   # 数据提取函数
    tree = etree.HTML(html)         # xpath
    urs = tree.xpath('//dd/a/@href')
    return urs

def urls_cl(urs):
    for i in range(9, len(urs)):
        headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.15 Safari/537.36'}
        res = requests.get(url=urs[i], headers=headers)
        tr = etree.HTML( res.text)
        txt_a = tr.xpath('//div[@class="bookname"]/h1/text()')[0]   # 标题
        txt_b = tr.xpath('//div[@id="content"]/p/text()')[0]      # 内容
        tra = txt_a + '\n' + txt_b
        for i in range(1, len(urs) + 1):
            file = '第' + str(i) + '章.txt'
            print('开始爬取第', str(i), '章' )
            with open(file, 'a', encoding='utf-8') as fp:
                fp.write(tra)
            print('第',str(i), '章爬取完成')
    return '爬取全本完成'

if __name__ == '__main__':
    ur = 'https://www.biquge5200.cc/'
    a = str(input('请输入书号')) # 例如:0_844
    url = ur + a
    urls_cl(extract(url_processing(url)))

猜你喜欢

转载自blog.csdn.net/mjp_erhuo/article/details/83054057

笔趣阁小说优化版

笔趣阁的小说爬取

爬取笔趣阁小说

Python 爬取笔趣阁小说

笔趣阁单篇小说采集

python爬取笔趣阁小说

Python爬虫——从笔趣阁爬小说

scrapycrawl 爬取笔趣阁小说

爬取笔趣阁网站小说

用Python实现笔趣阁小说爬取 GUI版

Python爬虫练习二：爬取笔趣阁小说

爬取笔趣阁小说（一念永恒）

用Scrapy爬取笔趣阁小说

笔趣阁小说 python3爬虫实例

分享笔趣阁、宜搜等小说免费API接口

学习笔记（爬虫）：爬取笔趣阁小说

网络爬虫之笔趣阁小说搜索下载

用Python实现笔趣阁小说爬取

java爬虫爬取笔趣阁小说

python爬虫--小说爬取--笔趣阁篇

笔趣阁

Python3中BeautifulSoup爬取笔趣阁小说网

python3.6.5爬虫之四：多线程同时爬取笔趣阁小说

python3.6.5爬虫之一：笔趣阁小说爬取（首页爬取法）

笔趣阁（www.qu.la）小说爬取代码（python实现）

Python BeautifulSoup 爬取笔趣阁所有的小说

爬虫-scrapy使用爬去笔趣阁小说链接+章节内容

爬虫学习：request+xpath爬取笔趣阁小说

python爬取笔趣阁小说（TK可视化）

笔趣阁小说-雪中悍刀行-爬虫源代码

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)