爬虫之scrapy和splash 结合爬取动态网页 - 代码天地

爬虫之scrapy和splash 结合爬取动态网页

其他 2018-08-18 11:46:52 阅读次数: 0

scrapy和splash 结合爬取动态网页

安装scrapy-splash:
pip install scrapy-splash
安装splash:
sudo docker pull scrapinghub/splash
运行splash:
docker run -it -d -p 8050:8050 --name splash scrapinghub/splash
编写scrapy:
1. 设置settings.py:

SPLASH_URL = 'http://xxx.xxx.xxx.xxx:8050' # splash的url
       DOWNLOADER_MIDDLEWARES = {
        'scrapy_splash.SplashCookiesMiddleware': 723,
        'scrapy_splash.SplashMiddleware': 725,
        'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
         }
        SPIDER_MIDDLEWARES = {
        'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
         }

编写spider:
今日头条为例子:

from scrapy.selector import Selector

import scrapy
from scrapy_splash import SplashRequest

import sys
reload(sys)
sys.setdefaultencoding("utf8")


class MySpider(scrapy.Spider):
   name = 'ddd'

   def start_requests(self):
       url = 'https://www.toutiao.com/'
       yield SplashRequest(url=url, callback=self.parse, args={'wait': 0.5}, dont_filter=True)

   def parse(self, response):
       xbody = Selector(response=response)
       title = xbody.xpath("//p[@class='title']/text()").extract()
       for i in title:
           print str(i).encode("gbk", 'ignore')  # 乱码

猜你喜欢

转载自blog.csdn.net/jianmoumou233/article/details/79832644

爬虫之scrapy和splash 结合爬取动态网页

网络爬虫：爬取动态网页

爬虫学习----动态网页爬取

Scrapy配合Selenium和PhantomJS爬取动态网页

scrapy，selenium，PhantomJS爬取动态网页

爬虫爬取动态网页下载图片

java爬虫系列（二）——爬取动态网页

爬虫毕设（三）：爬取动态网页

Python使用爬虫ip爬取动态网页

R语言爬取动态网页之环境准备

python学习笔记之网络爬虫(八) 静态网页和动态网页爬取(1)静态网页爬取

python爬取静态和动态网页

scrapy爬虫爬取动态网站

爬虫入门（三）——动态网页爬取：爬取pexel上的图片

win10安装docker(配置国内镜像加速)并实现scrapy通过splash爬取动态网页

Python3网络爬虫：Scrapy入门实战之爬取动态网页图片

爬取动态网页，Ajax动态加载和翻页时url不变的网页

scrapy结合selenium爬取动态网站(以淘宝为例)

Python网络爬虫逆向分析爬取动态网页、使用Selenium库爬取动态网页、编辑将数据存储入MongoDB数据库

动态网页爬取：使用Selenium和Pyppeteer处理动态加载内容

win7环境scrapy集成selenium爬取动态网页

135 scrapy框架使用selenium爬取动态网页的数据, crawlspider

Python3网络爬虫：requests爬取动态网页内容

Python网络爬虫技巧小总结，静态、动态网页轻松爬取数据

Python网络爬虫数据采集实战：同花顺动态网页爬取

使用python代码写一个可以爬取动态网页的爬虫

20. Python爬取动态网页之JS分析笔记

Python怎么爬取动态网页——如何使用selenium和PhantomJS

R语言爬取动态网页：使用RSelenium包和Rwebdriver包的前期准备

使用selenium和python，实现静态、多级、动态网页的信息爬取

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)