#scrapy实战# 爬取招标网站信息(一)

先贴上项目的背景信息：
在这里插入图片描述如上表格即为需要爬取到的信息，根据提取要求，先分析需要提取的内容都分布在目标网站哪里，
先打开目标网站，这里以必联网为例，假设搜索的关键字为：路由器
此网站打开：https://ss.ebnew.com/tradingSearch/index.htm
可以看到的内容包括：信息类型、标题、产品范畴、招标方式、招标截止时间，招标截止时间
在这里插入图片描述
打开其中一个项目详情，进入到二级页面：
可以看到项目编号(这里为空)，所属行业
页面继续往下滑动，可以看到项目编号，确认清楚自己需要的内容在页面何处，那么接下来确认目标实现路径，这里使用scrapy框架，爬虫领域比较知名，确认好实现框架，那按部就班先构建出一个scrapy 项目，
在这里插入图片描述打开终端(可以在pycharm中的terminal操作)：

创建scrapy项目：

scrapy startproject zhaobiao

D:\爬虫\pythonProject\实战>scrapy startproject ZHAOBIAO
New Scrapy project 'ZHAOBIAO', using template directory 'd:\python3.8.6\lib\site-packages\scrapy\templates\project', created in:
    D:\爬虫\pythonProject\实战\ZHAOBIAO

You can start your first spider with:
    cd ZHAOBIAO
    scrapy genspider example example.co

进入项目

cd ZHAOBIAO

D:\爬虫\pythonProject\实战>cd ZHAOBIAO

D:\爬虫\pythonProject\实战\ZHAOBIAO>

创建爬虫文件

scrapy genspider bilian"ebnew.com

D:\爬虫\pythonProject\实战\ZHAOBIAO>scrapy genspider bilian "ebnew.com"
Created spider 'bilian' using template 'basic' in module:
  ZHAOBIAO.spiders.bilian

D:\爬虫\pythonProject\实战\ZHAOBIAO>

已成功创建scrapy 项目，并创建了bilian这个爬虫文件
在这里插入图片描述接下来要对scrapy里面的内容进行设置，
主要是设置请求头和代理IP
注意：凡是涉及到爬虫，一定优先在脑中建立的意识是，先设置好请求头和代理IP，

那么在哪里设置这些内容呢，这就需要对scrapy框架清理掌握，再给大家看下scrapy框架原理图：
在这里插入图片描述每一个组件的含义，各位可先自行搜索搞清楚每一个概念以及数据流向图，
一篇文章写所有的内容会太多了，着后续的内容会在#scrapy实战# 爬取招标网站信息(二)