CentOS使用scrapy-splash - 代码天地

CentOS使用scrapy-splash

其他 2018-11-16 13:53:11 阅读次数: 0

准备工作

先完成简单scrapy项目
安装docker
- win下下载安装包安装
- mac下下载安装包安装(尝试使用brew安装，安装启动过程非常复杂，最后选择使用安装包直接安装)
- centos7下运行：
  yum install docker

redhat运行：

yum install --setopt=obsoletes=0 docker-ce-17.03.2.ce-1.el7.centos.x86_64 docker-ce-selinux-17.03.2.ce-1.el7.centos.noarch

安装 scrapy-splash
```
pip install scrapy-splash
```
启动docker服务
- centos7
  service docker start
- win下直接打开应用
- mac下直接打开应用
拉取镜像
```
docker pull scrapinghub/splash
```

运行镜像

docker run -p 8050:8050 scrapinghub/splash

配置splash服务（以下操作全部在settings.py）：

添加splash服务器地址：
SPLASH_URL = ‘http://localhost:8050’

将splash middleware添加到DOWNLOADER_MIDDLEWARE中：

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

Enable SplashDeduplicateArgsMiddleware:

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

Set a custom DUPEFILTER_CLASS:

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

a custom cache storage backend:

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

例子

import json, scrapy

lass MySpider(scrapy.Spider):
   name = 'example'
   allowed_domains = ['example.com']
   start_urls = ["http://example.com", "http://example.com/foo"]

   def start_requests(self):
     for url in self.start_urls:
       yield SplashRequest(url, self.parse, args={'wait': 0.5})

   def parse(self, response):
       # ...

猜你喜欢

转载自blog.csdn.net/zhao_5352269/article/details/83303075

CentOS使用scrapy-splash

scrapy-splash安装使用

Ubuntu 使用scrapy-splash

scrapy-splash的使用学习

scrapy-splash简单使用

Scrapy-Splash的安装和使用

Scrapy-Splash使用及对接代理

scrapy-splash

scrapy-redis集成scrapy-splash使用教程

爬虫之scrapy-splash

scrapy-splash初步学习

Ubuntu安装scrapy-splash

scrapy-splash常用设置

scrapy-splash相关命令

scrapy-splash的docker部署

mac 安装scrapy-Splash、Redis

记录------scrapy-splash爬虫相关

Scrapy学习篇（十三）之scrapy-splash

scrapy实战：scrapy-splash抓取动态数据

利用scrapy-splash爬取JS生成的动态页面

Scrapy-Splash简介及验证码的处理(一)

scrapy-splash抓取动态jd小米10价格

Scrapy框架学习（七）----Scrapy与scrapy-splash框架结合，快速加载js页面

scrapy利用scrapy-splash爬取JS动态生成的标签

第七部分（二）动态渲染页面爬取（Splash的安装和使用、Scrapy的安装、Docker的安装、Scrapy-Splash的安装，在Windows及Linux平台的安装）

小白学 Python 爬虫（39）： JavaScript 渲染服务 scrapy-splash 入门

scrapy框架使用splash渲染引擎爬取动态页面

scrapy_splash文档

python splash scrapy

Scrapy之Splash

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)