Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下） - 代码天地

Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）

其他 2018-06-19 05:14:44 阅读次数: 2

之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息。但是在大规模的爬取的时候，Firefox消耗资源比较多，因此我们希望换一种资源消耗更小的方法来爬取相关的信息。
下面就使用selenium加PhantomJS来实现之前的相同的逻辑。

这里需要修改的就是spider.py文件，其余的部分并不需要做出修改，我们给phantomjs添加一个User-Agent信息，并且设置不加载图片，这样将会加快渲染的速度。

spider.py

from scrapy import Spider,Request
from selenium import webdriver


class JingdongSpider(Spider):
    name = 'jingdong'

    def __init__(self):

        SERVICE_ARGS = ['--load-images=false', '--disk-cache=true', '--ignore-ssl-errors=true']
        self.browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)
        self.browser.set_page_load_timeout(30)

    def closed(self,spider):
        print("spider closed")
        self.browser.close()

    def start_requests(self):
        start_urls = ['https://search.jd.com/Search?keyword=%E6%96%87%E8%83%B8&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.his.0.0&page={}&s=1&click=0'.format(str(i)) for i in range(1,10,2)]
        for url in start_urls:
            yield Request(url=url, callback=self.parse)


    def parse(self, response):
        selector = response.xpath('//ul[@class="gl-warp clearfix"]/li')
        print(len(selector))
        print('---------------------------------------------------')

执行程序，效果是一样的。

猜你喜欢

转载自blog.csdn.net/qq_23518237/article/details/80722167

Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）

Scrapy实战篇（六）之Scrapy配合Selenium爬取京东信息（上）

Scrapy实战篇（五）爬取京东商城文胸信息

Scrapy实战篇（四）爬取京东商城文胸信息

Scrapy实战篇（七）之爬取爱基金网站基金业绩数据

Scrapy实战---Scrapy对接selenium爬取京东商城商品数据

Scrapy实战篇（二）之爬取链家网成交房源数据（下）

【爬虫】Scrapy配合Selenium爬取京东动态加载的商品信息

Scrapy实战篇（三）之爬取豆瓣电影短评

Scrapy实战篇（一）之爬取链家网成交房源数据（上）

Scrapy实战篇（六）之爬取360图片数据和图片

Scrapy实战篇（五）之爬取历史天气数据

Scrapy实战篇（八）之爬取教育部高校名单

Scrapy实战篇（九）之爬取链家网天津租房数据

scrapy爬取京东

Scrapy框架爬虫项目：京东商城笔记本电脑信息爬取

scrapy爬取京东商城某一类商品的信息和评论（二）

scrapy爬取京东商城某一类商品的信息和评论（一）

Scrapy配合Selenium和PhantomJS爬取动态网页

Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb

scrapy 爬取京东例子

python之scrapy爬取股票信息

selenium京东商城爬取

scrapy+splash爬取京东冰激凌信息

Scrapy实战篇（八）之简书用户信息全站抓取

Python爬虫实战使用scrapy与selenium来爬取数据

#scrapy实战# 爬取招标网站信息(一)

爬虫实战：使用Selenium爬取京东宝贝信息

scrapy-redis 爬取京东

Scrapy爬取京东商城华为全系列手机评论

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)