scrapy框架将数据写入txt出现数据丢失 - 代码天地

scrapy框架将数据写入txt出现数据丢失

企业开发 2023-06-05 13:26:36 阅读次数: 0

分析:

获取网页中的数据可以成功爬取，但是在写入txt操作的时候部分数据丢失。可能原因是scrapy框架是异步爬取数据，所以写入数据的时候不能完全写入完整的数据。

解决方法：

一、代码

pipelines.py

# 开启爬虫前调用
def open_spider(self, spider):
    self.file = open(r'novels/dhzmg.txt', 'w', encoding='utf-8')

# parse()返回值时调用，一般在这里写入数据
def process_item(self, item, spider):
    try:
        res = dict(item)
        title = res['title']
        line = res['data']
        self.file.write(title+'\n'+line+'\n\n')
   except:
        pass

# 关闭爬虫后调用，此处用于关闭文件连接
def close_spider(self, spider):
    self.file.close()

说明：
- open_spider()：开启爬虫前调用，可用于创建连接对象；
- close_spider()：关闭爬虫后调用，可以用于关闭文件连接；
- process_item()：此函数用于写入数据操作，在parse()返回值的时候自动调用。

二、配置

使用pipeline.py文件中的方法时，需要在setting.py更改设置。

setting.py

ITEM_PIPELINES = {
    
    
   'myscrapy.pipelines.MyscrapyPipeline': 300,
}

找到这个配置，取消前面的注释即可。

猜你喜欢

转载自blog.csdn.net/qq_42349944/article/details/102680166

scrapy框架将数据写入txt出现数据丢失

将数据写入本地txt

将数据写入txt c++

QT将图像数据写入txt文档

C#——将数据写入txt

将列表数据写入文件（python）文件：txt，csv，excel

java将数据写入txt文本，带换行

转：Python 将列表数据写入文件（txt, csv， excel）

C# 将DataTable数据写入到txt文件中

matlab将数据读取和写入txt文档

python_将数据写入本地txt文本实现方法

python将数据写入txt文本文件

Python 将列表数据写入文件（txt, csv， excel） Python 将列表数据写入文件（txt, csv， excel）

利用scrapy框架写入MySQL数据库时报错

scrapy---twisted异步IO框架(实现数据的异步写入)

scrapy中把数据写入mongodb

将数据写入excel

python将数据可追加的、多个数据分别写入到本地txt文件

Python将数据写入excel或者txt，读入csv格式或xls文件

创建目录并且将数据写入txt文件、删除指定目录下的文件

一个简易的Python爬虫，将爬取到的数据写入txt文档中

C#——将winform界面中的数据进行累加写入txt

2018/8/9-读取txt文件将所有数据四舍五入写入txt

scrapy框架循环多层页面爬取数据写入数据库或文档

logstash写入kakfa数据丢失的问题

数据写入到TXT文档中

python新建txt文件，并逐行写入数据

Java读取CSV数据并写入txt文件

QT 向txt中写入数据

scrapy数据保存为txt

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)