Scrapy_selenium - 代码天地

Scrapy_selenium

编程语言 2019-03-14 00:37:20 阅读次数: 0

Scrapy抓取页面的方式和请求库类似，都是直接模拟HTTP请求，而Scrapy也不能抓取的JavaScript动态渲染的页面。在前文中抓取的JavaScript渲染的页面有两种方式。一种是分析的Ajax请求，找到其对应的接口抓取，Scrapy同样可以用此种方式抓取。另一种是直接用selenium模拟浏览器进行抓取，我们不需要关心页面后台发生的请求，也不需要分析渲染过程，只需要关心页面最终结果即可，可见即可爬。那么，如果Scrapy可以对接selenium，那Scrapy就可以处理任何网站的抓取了。

再来复习下scrapy运行流程图

看到运行流程就清楚了，我们要操作的就是第4第5部(middlewares.py中的DownloaderMiddleware)

from selenium import webdriver
from scrapy.http import HtmlResponse    
def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        request_header = spider.settings['MY_USER_AGENT']
        currentHEADER = random.choice(request_header)
        request.headers["User-Agent"] = currentHEADER
        if request.url=="http://lol.qq.com/web201310/info-heros.shtml#Navi":
            browser=webdriver.Chrome()
            browser.get(request.url)
            # 这里返回了response，下面的process_response就不会被执行了，直接返回给spider进行解析
            #因此不用管process_response
            return HtmlResponse(url=request.url,body=browser.page_source,request=request,encoding='utf-8',status=200)

猜你喜欢

转载自blog.csdn.net/rookie_is_me/article/details/88537548

Scrapy_selenium

scrapy_selenium的常见问题和解决方案

深入网页分析：利用scrapy_selenium获取地图信息

scrapy_selenium爬取Ajax、JSON、XML网页：豆瓣电影

scrapy+selenium boss直聘爬虫案例分析

【重磅】SCRAPY+SELENIUM 模拟登陆CSDN

实现网页认证：使用Scrapy-Selenium处理登录

scrapy+selenium　爬取淘宝商城商品数据存入到mongo中

scrapy+selenium实战，热搜明星数据分析，看看有哪些好玩的事情

【Python scrapy+selenium】登录你的CSDN账号，然后去给别人点关注

【Python scrapy+selenium】登录你的CSDN账号，然后去给别人点关注-- 1565074797.363491

使用scrapy-selenium, chrome-headless抓取动态网页

SCRAPY+SELENIUM 强势登录17素材网，实现自动签到功能

动态内容抓取指南：使用Scrapy-Selenium和代理实现滚动抓取

Scrapy+Selenium自动化获取个人CSDN文章质量分

使用IE控件来分析网页结构，模拟测试爬虫，使用scrapy+selenium来执行网页爬虫

【Python scrapy+selenium】登录你的CSDN账号，然后去给别人点关注 -- 2019-08-08 20:39:43

【Python scrapy+selenium】登录你的CSDN账号，然后去给别人点关注 -- 2019-08-11 18:44:20

【Python scrapy+selenium】登录你的CSDN账号，然后去给别人点关注 -- 2019-08-08 18:01:30

【Python scrapy+selenium】登录你的CSDN账号，然后去给别人点关注 -- 2019-08-11 19:16:57

Scrapy+Selenium爬取异步加载网页并部署到Linux-Debain服务器完整教程

scrapy+selenium中关于同一个页面模拟点击后，打开新的标签页，切换到新页面的方法

scrapy--selenium

scrapy--selenium(二)

scrapy中selenium的应用

Scrapy中集成selenium

selenium在scrapy中的应用

scrapy使用selenium

Selenium集成至Scrapy

Scrapy对接Selenium

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)