小说爬取 - 代码天地

小说爬取

其他 2018-08-14 00:18:49 阅读次数: 0

import requests
import re
import time
from bs4 import BeautifulSoup
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
}

f = open('E:/HFTX.txt','a+')
url_list=[]

def get_urls(start_url):
    wb_data=requests.get(start_url,headers=headers)
    soup=BeautifulSoup(wb_data.text,'lxml')
    links=soup.select('#readlist > ul > li > a')
    for link in links:
        page_url='http://www.quanshuwu.com/'+link.get('href')
        url_list.append(page_url)

def get_info(url):
    res = requests.get(url,headers=headers)
    if res.status_code == 200:
        contents = re.findall('<p>(.*?)</p>',res.content.decode('utf-8',errors='ignore'),re.S)
        for content in contents:
            try:
                f.write(content+'\n')
            except:
                print('error')
    else:
        pass

if __name__ == '__main__':
    start_url='http://www.quanshuwu.com/book/2039.aspx'
    get_urls(start_url)
    for url in url_list:
        get_info(url)
        time.sleep(1)
    f.close()

猜你喜欢

转载自blog.csdn.net/qq_42052864/article/details/80737990

爬虫爬取小说网站

Python爬取小说网站

python 爬取小说网站实战

网络爬虫-爬取顶点小说网指定小说

python：免费看无广告小说之爬取全本免费小说网的小说

使用scrapy爬虫,爬取起点小说网的案例

话本小说网-文章内容爬取

Python爬虫系列之小说网爬取

Python的scrapy之爬取6毛小说网

python爬虫，简单的爬取小说网站的阅读排名

scrapy爬虫-爬取wattpad外网小说网站

爬虫练习——爬取纵横小说网

【每周一爬】爬取盗版小说网的小说

【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓

Python3爬取免费小说网小说

spider爬虫练习，爬取顶点小说网，小说内容。

【Python3爬虫-爬小说】爬取某小说网小说2/2--利用下一页抓

爬虫学习之7：使用XPATH爬取起点小说网小说信息(保存到EXCEL)

Python3中BeautifulSoup爬取笔趣阁小说网

Python爬取小说网站，没有什么是Python不能做的！

运用scrapy爬虫,爬取17k小说网的案例

运用scrapy爬虫,爬取17k小说网的案例-方法二

学习python3爬虫爬取静态小说网站

用Scrapy爬取百度小说吧内容

Python爬取小说网站页面制作电子书

用scrapy爬取小说网站，并保存到数据库

利用python的requests和BeautifulSoup库爬取小说网站内容

python爬虫爬取笔趣网小说网站过程图解

爬虫爬取小说网站的内容，并将各章节输出到各txt文件

Python爬虫实例(一)——爬取某点小说网《庆余年》

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)