将爬虫数据存放到数据库中 - 代码天地

将爬虫数据存放到数据库中

其他 2020-03-08 19:50:01 阅读次数: 0

爬虫获取的数据可以存放到本地，也可以直接存放的指定的数据库。

1、存放到本地中，pipeline文件代码：

import json

class DongguanPipeline(object):
    def __init__(self):
        self.filename = open("xxx.json", "wb")

    def process_item(self, item, spider):
        text = json.dumps(dict(item), ensure_ascii = False) + ",\n"
        self.filename.write(text.encode("utf-8"))
        return item

    def close_spider(self, spider):
        self.filename.close()

2、存放到mongodb数据库中，pipeline文件代码：

import pymongo
from scrapy.conf import settings

class DoubanPipeline(object):
    def __init__(self):
        host = settings["MONGODB_HOST"]
        port = settings["MONGODB_PORT"]
        dbname = settings["MONGODB_DBNAME"]
        sheetname= settings["MONGODB_SHEETNAME"]

        # 创建MONGODB数据库链接
        client = pymongo.MongoClient(host = host, port = port)
        # 指定数据库
        mydb = client[dbname]
        # 存放数据的数据库表名
        self.sheet = mydb[sheetname]

    def process_item(self, item, spider):
        data = dict(item)
        self.sheet.insert(data)
        return item

3、存放到mongodb数据库时，在setting文件中的配置

ITEM_PIPELINES = {
   'douban.pipelines.DoubanPipeline': 300,
}

# MONGODB 主机名
MONGODB_HOST = "127.0.0.1"

# MONGODB 端口号
MONGODB_PORT = 27017

# 数据库名称
MONGODB_DBNAME = "Douban"

# 存放数据的表名称
MONGODB_SHEETNAME = "doubanmovies"

发布了59 篇原创文章 · 获赞 22 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/Albert_Ejiestein/article/details/90244220

将爬虫数据存放到数据库中

抓取接口数据，并存放到数据库中

C#将图片存放到SQL SERVER数据库中的方法

[小技巧]如何让emoji存放到数据库中

ssm 接收ajax请求数据，并存放到数据库中

Java语言如何将word表格中的数据取出来存放数据库

没网将网络数据存放数据库

ColumnListHandler：将结果集中某一列的数据存放到List中。

【Python】【MySQL】Python将JSON数据以文本形式存放到MySQL的Text类型字段中

【SpringBoot】DEMO：上传头像并把头像的路径存放到数据库

数据库备份及存放

加入购物车的数据怎么存放到cookie中

DataX（4）：读取 MySQL 中的数据存放到 HDFS

网页设计大赛之将本地图片存放至数据库中并再次显示

数据库放到容器里

python简单爬虫实例5之抓取猫眼网数据并存放数据库

Ajax返回的数据存放到js数组

将爬虫爬到的数据存入MySQL数据库

Android从数据库取数据放到另一个Activity中的EditText中

Python使用Scrapy框架爬取某网站职位数据并存放到MySQL数据库（支持二级页面爬取）

activiti数据库表存放的位置

oracle——数据库日志存放位置

爬虫数据库中存取内容

python读取excel文件的某一列数据，并将数据存放到数组中

将数据库中的密码加密

Unity读取Text中的每一行数据存放到字典中

三种东西从来不应该放到数据库中

上传文件放到硬盘上与数据库系中的区别

【Python爬虫】轻松几步将 scrapy 框架获取得到的数据存储到 MySQL 数据库中

如何在python3中将网页爬虫数据存储到mysql数据库

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)