一个爬虫从网页中爬取小说 - 代码天地

一个爬虫从网页中爬取小说

其他 2018-05-17 21:01:39 阅读次数: 2

一个简单的实例，从网页中爬取整部小说！

 1 import codecs
 2 import urllib.request
 3 import urllib
 4 import re
 5 
 6 urls=[]
 7 url = "https://www.biquger.com/biquge/39691/"
 8 #防爬设置
 9 header = {
10    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
11 }
12 # 请求
13 request = urllib.request.Request(url,headers=header)
14 # 爬取结果
15 response = urllib.request.urlopen(request)
16 #decode使用utf-8报错，换成gbk
17 data = response.read().decode('gbk')
18 
19 #正则匹配标签
20 pattern = re.compile("href=['\"]([^\"'>]*?)['\"].*?",re.S)
21 items = re.findall(pattern, data)
22 for item in list(items):
23     if 'https' in item and '39691' in item:  ##判断是否为http协议链接，并判断是否抓取过
24         urls.append(item)
25 #print (urls)
26 print (urls[2])
27 for i in range(2,10):
28     request = urllib.request.Request(url=urls[i], headers=header)
29      # 爬取结果
30     response = urllib.request.urlopen(request)
31     #  decode使用utf-8报错，换成gbk
32     data = response.read().decode('gbk')
33     pattern = re.compile('<!--g0-->.*?<center>', re.S)
34     items = re.findall(pattern, data)
35     for item in items:
36         # 标签过滤
37         temp = item.replace('<br />', '')
38         temp = temp.replace('&nbsp;', '')
39         fo = codecs.open("foo.txt", "a",'utf-8')
40         fo.write(temp)
41         fo.close()
42         print(temp)

fiction_crawler

猜你喜欢

转载自www.cnblogs.com/mtfan01/p/9053034.html

一个爬虫从网页中爬取小说

Scrapy爬取全网小说到本地TXT，Python少年最爱的一个爬虫项目！

五分钟写一个小爬虫，爬取小说并写入txt文件

Python笔记（五） --写一个爬虫对新笔趣阁的小说进行爬取

我的第一个python爬虫程序——爬取网络小说（含错误及源码）

爬虫：Scrapy爬取第一个网页实例解析

爬虫用java实现一个简易爬取网页超链接的程序

使用python代码写一个可以爬取动态网页的爬虫

python爬虫之一(2)：爬取网页小说（圣墟）

python爬虫之一：爬取网页小说（魂破九天）

Python爬虫入门：爬取某个网页的小说内容

不会Python爬虫？教你一个通用爬虫思路轻松爬取网页数据

不会Python爬虫？教你一个通用爬虫思路轻松爬取网页数据，赶紧收藏！！

Python爬虫——爬取小说

Python爬虫层层递进，从爬取一章小说到爬取全站小说

如何用python爬虫从爬取一章小说到爬取全站小说

爬取一个网页保存到本地文件

Python使用requests爬取一个网页并保存

（第一个java爬虫）java爬取网页文本并抽取中英文关键词

爬虫爬取一个div下多个标签

一个很垃圾的整站爬取--Java爬虫

爬虫：一个简单的数据爬取统计实例

一个爬取股票信息的爬虫程序

python爬虫--一次爬取小说的尝试

python爬虫之类的方法爬取一部小说

一个简单的爬取小说的python程序彻底搞懂Python的字符编码

Scrapy 学习笔记 - 一个练手任务，爬取起点的全部小说名

一个简单的使用scrapy爬取小说的例

Python爬取网页所有小说

scrapy爬取小说(一）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)