使用C#爬小说 - 代码天地

使用C#爬小说

其他 2019-02-15 18:17:58 阅读次数: 0

最近因朋友需要在研究如何从网站上爬小说，说到爬，很多人首先想到的是Python，但是因为没有用过Python，加上时程比较紧，就直接使用C#。

其原理也很简单，就是利用HttpWebRequest对象从网站获取HTML数据包再解析

 HttpWebRequest httpReq = (HttpWebRequest)WebRequest.Create(httpURL);
 httpReq.Method = "GET";
 httpReq.ContentType = "text/html;charset=utf-8";

 HttpWebResponse httpResp = (HttpWebResponse)httpReq.GetResponse(); HttpWebRequest htt

View Code

实际操作过程中发现有些问题，特意记录下

1、返回的HTML数据包是乱码，这个问题有两种解法，首先是要确保StreamReader的编码格式与网站URL的一致，如下

respStreamReader = new StreamReader(respStream, Encoding.UTF8);

另外就是要看服务器传回的流是否使用了gzip方法压缩，如果用了gzip方法压缩，则要用解压才行

string header = httpResp.GetResponseHeader("Content-Encoding");

StreamReader respStreamReader;
if (header == "gzip")
{
    respStreamReader = new StreamReader(new GZipStream(respStream, CompressionMode.Decompress), Encoding.UTF8);
}

猜你喜欢

转载自www.cnblogs.com/dimg/p/10384936.html

使用C#爬小说

使用webmagic爬小说初试

使用python爬取小说

使用requests爬取小说

c++ 爬取小说内容（未完）

使用python3爬取小说

使用beautifulSoup库爬取小说

C#网络爬虫抓取小说

C# Java 自动读取小说章节。

C# 爬取图片（非原图，仅供学习使用）

【爬虫】使用urllib.request去爬取小说

使用scrapy爬虫,爬取起点小说网的案例

python爬虫进阶使用多线程爬取小说

使用requests+BeautifulSoup爬取龙族V小说

使用bs4爬豆瓣小说名

python3爬虫-使用requests爬取起点小说

学习使用re做解析器爬小说

Java爬虫---使用WebMagic爬取小说数据

使用python爬取小说（附python源码）

python 爬小说

python爬小说

python 爬取小说

小说爬取

Python爬取小说

爬取小说

爬取小说 spider

python爬小说案例

scrapy 爬取小说

爬取金瓶梅小说

简单爬取小说

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)