#scrapy实战# 爬取招标网站信息(一)

先贴上项目的背景信息:
在这里插入图片描述如上表格即为需要爬取到的信息,根据提取要求,先分析需要提取的内容都分布在目标网站哪里,
先打开目标网站,这里以必联网为例,假设搜索的关键字为:路由器
此网站打开:https://ss.ebnew.com/tradingSearch/index.htm
可以看到的内容包括:信息类型、标题、产品范畴、招标方式、招标截止时间,招标截止时间
在这里插入图片描述
打开其中一个项目详情,进入到二级页面:
可以看到项目编号(这里为空),所属行业
在这里插入图片描述页面继续往下滑动,可以看到项目编号,在这里插入图片描述确认清楚自己需要的内容在页面何处,那么接下来确认目标实现路径,这里使用scrapy框架,爬虫领域比较知名,确认好实现框架,那按部就班先构建出一个scrapy 项目,
在这里插入图片描述打开终端(可以在pycharm中的terminal操作):

创建scrapy项目:

scrapy startproject zhaobiao

D:\爬虫\pythonProject\实战>scrapy startproject ZHAOBIAO
New Scrapy project 'ZHAOBIAO', using template directory 'd:\python3.8.6\lib\site-packages\scrapy\templates\project', created in:
    D:\爬虫\pythonProject\实战\ZHAOBIAO

You can start your first spider with:
    cd ZHAOBIAO
    scrapy genspider example example.co

进入项目

cd ZHAOBIAO

D:\爬虫\pythonProject\实战>cd ZHAOBIAO

D:\爬虫\pythonProject\实战\ZHAOBIAO>

创建爬虫文件

scrapy genspider bilian"ebnew.com

D:\爬虫\pythonProject\实战\ZHAOBIAO>scrapy genspider bilian "ebnew.com"
Created spider 'bilian' using template 'basic' in module:
  ZHAOBIAO.spiders.bilian

D:\爬虫\pythonProject\实战\ZHAOBIAO>

已成功创建scrapy 项目,并创建了bilian这个爬虫文件
在这里插入图片描述接下来要对scrapy里面的内容进行设置,
主要是设置请求头和代理IP
注意:凡是涉及到爬虫,一定优先在脑中建立的意识是,先设置好请求头和代理IP,

那么在哪里设置这些内容呢,这就需要对scrapy框架清理掌握,再给大家看下scrapy框架原理图:
在这里插入图片描述每一个组件的含义,各位可先自行搜索搞清楚每一个概念以及数据流向图,
一篇文章写所有的内容会太多了,着后续的内容会在#scrapy实战# 爬取招标网站信息(二)

猜你喜欢

转载自blog.csdn.net/weixin_42961082/article/details/109922243