实现elasticsearch 和scrapy-redis分布式 - 代码天地

实现elasticsearch 和scrapy-redis分布式

其他 2018-06-02 05:07:32 阅读次数: 0

kibana-5.1.2-windows-x86

elasticsearch-rtf

elasticsearch-head

elasticsearch-rtf的版本最好要和kibana接近具体操作可以从GitHub上查找

使用到npm的话再去下载node.js

在项目中建立一个models文件夹类似django

from datetime import datetime
from elasticsearch_dsl import DocType, Date, Nested, Boolean, \
    analyzer, InnerDoc, Completion, Keyword, Text,Integer
from elasticsearch_dsl.connections import connections
connections.create_connection(hosts=["localhost"])

class jobboleItemsType(DocType):
    title = Text(analyzer="ik_max_word")
    date_time = Date()
    style = Text(analyzer='ik_max_word')
    content = Text(analyzer='ik_max_word')
    cherish = Integer()
    image_url = Keyword()
    img_path = Keyword()

    class Meta:
        index = 'job_bole'
        doc_type = 'article'


if __name__ == '__main__':
    jobboleItemsType.init()

如上将item中对应的设置一下类似数据库建立表

在对应的item类中

def save_to_es(self):
    article = jobboleItemsType()
    article.title = self['title']
    article.content = self['content']

    article.date_time = self['date_time']
    article.cherish = self['cherish']
    article.image_url = self['image_url']
    # article.img_path = item['img_path']
    article.meta.id = self['id']
    article.save()
    return

在对应的pipeline中调用这个方法，就可以实现将数据存进去了

写完后记得要在settings中注册

分布式-------------------------------------

下载安装好scrapy-redis

C:\Users\chase\Desktop\scrapy-redis-master\src\scrapy_redis 将这个文件夹放入到项目中之后按照GitHub上给的布置

之后运行下面这两个修改成自己的名称

run the spider:
```
scrapy runspider myspider.py
```

push urls to redis:

redis-cli lpush myspider:start_urls http://google.com

猜你喜欢

转载自blog.csdn.net/chasejava/article/details/80024698

实现elasticsearch 和scrapy-redis分布式

scrapy-redis分布式爬虫实现思路

使用 scrapy-redis实现分布式爬虫

Scrapy-redis实现分布式爬虫的要点

利用scrapy-redis实现分布式爬虫

使用Scrapy-redis实现分布式爬取

scrapy-redis实现分布式爬虫

Scrapy-redis改造scrapy实现分布式多进程爬取

【Scrapy框架基于scrapy-redis实现分布式爬虫】

scrapy框架中间件的使用以及scrapy-redis实现分布式爬虫

scrapy-redis实现爬虫分布式爬取分析与实现

Scrapy-redis实现分布式爬取的过程与原理

scrapy-redis实现全站分布式数据爬取

scrapy-redis实现分布式爬取知乎问答

第49讲：实战上手，Scrapy-Redis 分布式实现

【Scrapy框架基于scrapy-redis实现分布式爬虫】 -- 2019-08-07 10:14:58

【个人项目】基于scrapy-redis的股票分布式爬虫实现及其股票预测算法研究

Scrapy-redis分布式+Scrapy-redis实战

scrapy-redis分布式组件

scrapy-redis分布式爬虫

Scrapy-Redis分布式策略

scrapy-redis分布式

分布式爬虫(scrapy-redis)

scrapy-Redis 分布式爬虫

Scrapy-redis 分布式

Scrapy+redis实现分布式爬虫

scrapy_redis实现分布式爬虫

scrapy爬虫-scrapy-redis分布式

scrapy-redis 分布式爬虫原理及与scrapy不同

scrapy实现分布式

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)