五分钟写一个小爬虫，爬取小说并写入txt文件 - 代码天地

五分钟写一个小爬虫，爬取小说并写入txt文件

其他 2018-07-24 05:09:51 阅读次数: 0

先上代码：

import requests
from lxml import html
url='http://www.shuge.net/html/111/111781/6593021.html' #需要爬数据的网址
page=requests.Session().get(url)
tree=html.fromstring(page.text)
result=tree.xpath('//div[@class="box_con"]//div/text()') #获取需要的数据
print(result)  #打印爬取结果
fo=open('1.txt','w')  #将数据写入文件
for ip in result:
    fo.write(ip)
    fo.write('\n')
fo.close()
print("1")

爬取结果展示：

爬取内容为目标网页中的小说：

爬虫讲解：

首先要安装两个爬虫必备模块：

import requests

from lxml import html

request模块，用于向HTTP发送请求；如果没有安装可在终端执行“pip install requests”命令进行安装。

lxml模块同理，执行“pip install lxml”命令即可安装。

接下来要做的，就是寻找“猎物”，以一个小说网站为例：

对将要爬取的内容点击鼠标右键-检查

可以看到我们将要获取的内容在一个div里，接着往上寻找其上级标签，也就是这个：

将其标签及其class内容写入代码

result=tree.xpath('//div[@class="box_con"]//div/text()')

第一个div及为上级标签，后面是class内容，第二个div即为包含我们将要爬取内容的标签，text()即为该标签内的文字信息，格式根据爬取不同网页时的情况而定；

result会获取该网页所有<div class="box_con">标签下的div的文字的内容；

接着要做的就是将result里的内容写入txt文件，由于result获取到的是一个list，因此在写入是可以这样写：

fo=open('1.txt','w')  #将数据写入文件
for ip in result:
    fo.write(ip)
    fo.write('\n')
fo.close()

写入结果即为文章第二章图片显示。

再来试一下爬取热门小说排行榜吧！

这次的爬取内容是在<div class="topbooks">下的标签<a >里，那么我们其中两行代码这样写：

url='http://www.shuge.net/longhubang/'

result=tree.xpath('//div[@class="topbooks"]//a/text()')

爬取结果：

怎么样，是不是很简单呢？

但现实中爬虫会遇到很多问题，比如：

1. 页面规则不统一；
2. 爬下来的数据处理；
3. 反爬虫机制。

这些都需要一步一步地学习和摸索，坚持下去，总有一天你会成为爬虫大神的哟~

感谢观看

文章借鉴于博主@a_achengsong

猜你喜欢

转载自blog.csdn.net/xylon_/article/details/81152804

五分钟写一个小爬虫，爬取小说并写入txt文件

Python笔记（五） --写一个爬虫对新笔趣阁的小说进行爬取

python爬虫入门10分钟爬取一个网站

Scrapy爬取全网小说到本地TXT，Python少年最爱的一个爬虫项目！

一个爬虫从网页中爬取小说

Python爬虫入门实战系列（一）--爬取网络小说并存放至txt文件

五分钟创建一个ChatGPT Plugin

python爬虫（一）简单爬取文字写入txt

爬虫2 requests+bs4爬汽车之家新闻, bs4的使用(遍历文档树和查找文档树), 搭一个免费的代理池, 验证码破解(超级鹰), 爬取糗事百科段子自动通过微信发给好友, 爬取(拉钩职位, cnblogs新闻, 红楼梦小说写入txt, 肯德基餐厅信息), 爬取博客园写入mysql

3分钟学会一个小技巧

【echarts应用】--横轴每五分钟取一个点，动态时间轴实现

一个简易的Python爬虫，将爬取到的数据写入txt文档中

python爬虫（二）lxml.etree的使用（五分钟爬取大学生兼职网）

5分钟从零开始构建一个Node.js小爬虫程序并生成网站

微信小程序开发入门：10分钟从0开始写一个hello-world

爬虫小案例——爬取网站小说

爬虫爬取小说网站的内容，并将各章节输出到各txt文件

爬虫爬取大量高清壁纸，一分钟换一张壁纸

爬虫爬取大量高清壁纸，一分钟换一张壁纸！

python爬虫实战一、爬取酷我音乐榜单并写入txt文件保存到本地

照葫芦画瓢之python爬虫系列----（3）一分钟快速爬取想要的内容

我的第一个python爬虫程序——爬取网络小说（含错误及源码）

python scrapy 入门,10分钟完成一个爬虫

30分钟编写一个抓取 Unsplash 图片的 Python爬虫

php从爬虫爬取的txt文件按行读取并写入保存到excel，csv中

python爬虫——利用requests库BeautifulSoup定向爬取网页内容写入txt文件

【前端3分钟】写一个数字翻牌器

使用Netty三分钟手写一个RPC

十分钟写一个好玩的app

十分钟写一个webpack精灵图plugin

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)