Scrapy学习-1-入门 - 代码天地

Scrapy学习-1-入门

其他 2018-05-17 21:06:44 阅读次数: 2

基础知识

爬虫去重

1. 存储到数据库中

    存取速度慢

2. 存储到内存中的集合里，内存占用十分大

    当爬取数据有1亿条时

        1*10**8*2Byte*50str_len/1024/1024/1024 = 9

    结果显示仅仅爬取1亿条url数据就占用了9个G的内存，显然是不合适的

3. 将url经过md5等哈希方法存储在集合中

    一般一个md5占用128位，16Byte，结果大约为1.5G与上种方法相比，大大减少了内存占用

4. 使用bitmap位图法

    将url经过哈希后的md5值通过hash函数映射到某一位上

    一个url占据一位，同样的一个亿的数据，内存大约占据12M的内存大小。相比与hash方法又占用的内存又小了几个数量级

    这种方法带来的冲突会导致，再寻址

    虽然极大降低了内存占用，但是牺牲了运行时间

5. bloomfilter方法

    对bitmap优化后的方法，减少了hash冲突的可能性

Scrapy入门

介绍

　　Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

github项目

　　https://github.com/scrapy/scrapy

新建scrapy工程

# 在虚拟环境中，workon <yourvenvname>

scrapy startproject TestSpider

cd TestSpider

scrapy genspider example example.com

简单运行一下工程

# 创建一个main.py文件

    from scrapy.cmdline import execute

    import sys
    import os 

    sys.path.append(os.path.dirname(os.path.abspath(__file__)))
    execute(["scrapy", "crawl", "jobbole"])

# 在虚拟环境中执行

    scrapy crawl jobbole

# 或者直接运行我们的main.py文件

    ***

# 提示缺少模块

    pip install pypiwin32

# 配置settings，不遵循OBEY协议

    ROBOTSTXT_OBEY = False

# 快速调试工程,一次请求，多次测试

    scrapy shell <url_path>

猜你喜欢

转载自www.cnblogs.com/cq146637/p/9053116.html

Scrapy学习-1-入门

Drools学习（1-入门例子）

python 学习之路1-如何入门

TensorFlow学习笔记1-入门

pytest学习1-安装和入门

Netty入门学习笔记1-定义

1-快速入门

1- selenium入门

【Python】Scrapy入门1-新建爬虫到爬取内容

Vue.js学习记录-1-入门 + TodoList案例

git学习笔记1-刚刚入门（霜之小刀）

Node.js学习笔记1-基础入门

吴恩达机器学习入门笔记1-术语

GO语言学习记录笔记1-入门了解

1- 需要学习的

scrapy篇(1)scrapy入门

Locust入门1- 介绍

Mongo入门-1-原理

Scrapy入门（1）

Python学习笔记--Python 爬虫入门 -18-1 Scrapy

Spark的学习1-编译

Matplotlib学习1-线图

1- Docker 的学习安装

机器学习1-概述

python学习1-概述

Appium学习1-安装

1-机器学习概述

scrapy 学习1

scrapy 学习笔记1

scrapy学习（1）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)