关于数据库选择和写爬虫的思路 - 代码天地

关于数据库选择和写爬虫的思路

编程语言 2018-12-23 11:20:50 阅读次数: 0

版权声明：转载请声明出处! https://blog.csdn.net/qq_43125439/article/details/85221200

mongodb mysql redis的区别和使用场景

mysql是关系型数据库, 支持事务
mongodb, redis是非关系型数据库(noSQL), 不支持事务
mysql, mongodb, redis的使用根据如何方便进行选择
希望速度快的时候, 选择mongodb或者是redis
数据量过大的时候, 选择频繁使用的数据存入redis, 其他的存入MongoDB
MongoDB不用提前建表建数据库, 使用方便, 字段数量不确定时候用MongoDB
后续需要用到数据之间的关系, 此时考虑mysql

爬虫数据去重, 实现增量式爬虫

使用数据库建立关系字段(一个或多个)建立索引进行去重
根据url地址进行去重
使用场景:
- url地址对应的数据不会变的情况, url地址能够唯一判别一条数据的情况
思路:
- url存入redis中
- 拿到url地址, 判断url在redis的url集合中是否存在
- 存在: 代表url已经请求过, 不再请求
- 不存在: url地址没有被请求过, 先请求, 然后把url存入redis的集合中
布隆过滤器
- 使用多个加密算法加密url地址, 得到多个值
- 往对应值的位置把结果设置为1
- 新来一个url地址, 一样通过加密算法生成多个值
- 如果没有抓过, 就把对应位置的值设置为1
根据数据内容进行去重
- 选择特定的字段, 使用加密算法(md5, sha1)将字段进行加密, 生成字符串, 存入redis的集合中
- 后续新来一条数据, 同样的方法进行加密, 如果得到的字符串在redis中存在说明数据存在, 对数据进行更新, 否则说明数据不存在, 直接插入

爬虫思路

1. `class Spider:`, 生产爬虫

2. `class Download:`, 数据下载

3. `class Filter:`, 数据过滤

4. `class SaveResult`, 数据保存

5. `class Utils`, 工具包, 封装功能

6. `class Console`, 控制台, 负责调度

7. `settings.py`, 配置文件

猜你喜欢

转载自blog.csdn.net/qq_43125439/article/details/85221200

关于数据库选择和写爬虫的思路

关于时序数据库的选择

关于Oracle数据库字符集的选择

关于操作Access数据库jdk选择问题

数据库的选择

数据库优化的思路

数据库优化思路

关系型数据库设计表和字段的思路

写爬虫的思路

写爬虫的逻辑思路

关于tp3.2.3文件导入数据库（去除重复数据）、写日志和下载问题

关于数据库的索引和视图

java自己写的一个图片爬虫和音乐爬虫（数据爬虫跟这个原理一样将下载改成数据处理即可）（优化加入数据爬虫到mysql数据库在最后）

java自己写的一个图片爬虫和音乐爬虫（数据爬虫跟这个原理一样将下载改成数据处理即可）（优化加入数据爬虫到mysql数据库在最后）

关于使用Python——写使用类和对象+数据库完成学生信息管理系统

关于数据库

关于数据库的

关系型数据库和nosql数据库的区别和选择

scrapy爬虫之pipelines（数据库和json）

关于mysql数据库创建商品及属性相关表的思路

数据库如何调优和写sql的技巧

如何不写 SQL ，探索和分析数据库？

数据库关于库和表的操作

MySQL 创建删除和选择数据库

矢量数据库对比和选择指南

如何选择适合的数据库和编程语言

数据库待写

数据库Raid选择

MySQL 选择数据库

Mybatis的数据库选择

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

周排行

《Python 编程-从入门到实践》11-1~11-3

关于Numpy+TensorFlow+PyTorch构造NN的总结

【原创达人】制作WINPE启动盘心得

英文图片文字识别（提取）

2022cma看片网站给一个你懂的

二叉搜索树的实现（BST）（插入+删除+查找+各种遍历+高度）

搬家通知博文地址(将博客搬到CSDN)

asfd

解决错误：MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk

如何注册微信个人小程序

每日归档

更多

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)