scrapy中的各个模块的作用 - 代码天地

scrapy中的各个模块的作用

其他 2019-03-12 09:21:05 阅读次数: 0

在这里插入图片描述
a51job.py,是爬虫，主要是进行请求，把请求发送给中间件middlewares.py,
middlewares.py通过
class JobMiddleware(object):
def init(self):
#接受到来自a51job.py中的Request请求,模拟的浏览器自动打开
self.browser = webdriver.Chrome(executable_path="/cdrom/chromedriver")

def process_request(self,request, spider):
    #因为详情页中不需要Selenium模拟,所以直接请求就可以了(因为没有ajax)用源信息进行请求就可以了
    if request.meta.get("message"):
        return None
    #浏览器get请求当中的url
    self.browser.get(request.url)
    # time.sleep(10)
    #返回给爬虫一个response
    return HtmlResponse(url=self.browser.current_url,body=self.browser.page_source,encoding="utf-8",request=request)

items:主要是做数据清洗（抓取字段根据需求进行处理）

pipelines.py：是最后一道工序，就是进行数据库的存储或者输出数据

猜你喜欢

转载自blog.csdn.net/weixin_44274975/article/details/88371725

scrapy中的各个模块的作用

spring中各个模块的作用

ansible各个模块的作用

flask扩展包WTFfrom中各个模块的作用

python中的各个模块

linux中各个目录的作用

CNN中各个层的作用

scrapy中pipleline的主要作用?

Spring中各个jar包的作用

plsql developer中各个window的作用【转】

spring中各个jar包作用

Opencv中detectMultiScale()各个参数的作用

Java中各个包的主要作用

页表项中各个位的作用

Linux 中各个文件夹的作用

Linux文件系统中各个目录的作用

OSI参考模型中各个分层的作用

maven中 pom 文件各个标签的作用

Hadoop生态中各个组件、进程的作用

web.xml中各个标签的作用

scrapy parse()中 yield的作用分析

python中os模块的作用

unittest中几个模块的作用

struts2中各个jar包的作用

struts2中各个jar包作用

Spring3.x中各个jar包的作用总结

spring3.0.7中各个jar包的作用总结

ListView的监听器中OnItemClick各个参数的作用

web.xml中各个标签的作用和说明

一、基于Spring中各个jar包的作用及依赖(详解)

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)