模块三第二周作业二招标网站

1 问题描述

使用Scrapy框架，完成必联网招标信息采集，采集字段：

在这里插入图片描述

2 解题提示

必联网有些页面需要登录才可以得到响应，需要手动登录，并得到浏览器中的Cookie值，把Cookie加入到请求头中
关于数据的提取，有些需要定制正则表达式，比如项目编号可能在详细页的文本中，用普通的XPath无法提取出来，这个需要多看几个页面，多做测试，分析数据格式
数据的持久化可以在管道文件中进行，以课程中讲解的为例，把招标信息保存到MySQL数据库中
代理IP应该在下载中间件中进行设置，代理IP需要访问第三方的接口，具体参照录播中的步骤讲解

3 评分标准

爬虫可以对必联网的招标数据进行采集 20分
数据提取的准确性，例如可以更有效的提取出招标编号 10分
代码注释，规范10分

4 要点解析

在这里插入图片描述

5 实现步骤

创建scrapy，spider

在这里插入图片描述

spider文件

import scrapy
import re
from copy import deepcopy


class TenderdataSpider(scrapy.Spider):
    name = 'tender_data'
    # 将ss.ebnew.com也添加进来，防止过滤
    allowed_domains = ['www.ebnew.com', 'ss.ebnew.com']
    # start_urls = ['http://www.ebnew.com/']
    # 数据库中存储的数据模式为字典：sql_data
    sql_data = dict(
        projectcode='',  # 项目编号
        web='必联网',  # 信息来源网站（例如：必联网）
        keyword='',  # 关键字
        detail_url='',  # 招标详细页网址
        title='',  # 第三方网站发布标题
        toptype='',  # 信息类型
        province='',  # 归属省份
        product='',  # 产品范畴
        industry='',  # 归属行业
        tendering_manner='',  # 招标方式
        publicity_date='',  # 招标公示日期
        expiry_date='',  # 招标截止时间
        )
    # 因为其提交的方式是POST方式，其form_data按照网站的Form_Data存储
    form_data = dict(
        infoClassCodes='',  #
        rangeTyp='',  #
        projectType='bid',  # 这个值不会变换，所以直接默认
        fundSourceCodes='',  #
        dateType='',  #
        startDateCode='',  #
        endDateCode='',  #
        normIndustry='',  #
        normIndustryName='',  #
        zone='',  #
        zoneName='',  #
        zoneText='',  #
        key='',  # 路由器用户输入的关键词：
        pubDateType='',  #
        pubDateBegin='',  #
        pubDateEnd='',  #
        sortMethod='timeDesc',  # 这个值不会变换，所以直接默认
        orgName='',  #
        currentPage='',  # 当前页面2

        )
    keyword_s = ['路由器', '变压器']

    # 设置start_request
    def start_requests(self):
        # request需要提交表单
        for keyword in self.keyword_s:
            # 因为多线程操作，在存储上需要deepcopy
            form_data = deepcopy(self.form_data)
            form_data['key'] = keyword
            form_data['currentPage'] = '1'
            # 设置为FormRequest而不是Request，因为需要提交表单数据
            request = scrapy.FormRequest(
                url='http://ss.ebnew.com/tradingSearch/index.htm',
                formdata=form_data,
                # 将response提交给start_parse处理,拿到最大的页码
                callback=self.start_parse,
                )
            # 封装form_data数据，因为start_parse需要
            request.meta['form_data'] = form_data
            yield request

    # start_parse 找到所有的页码，然后将这些页码封装在request中，提交给scheduler处理
    # 循环将所有的url一次传递给scheduler
    def start_parse(self, response):
        # 获取包含最大页码的列表
        page_max_s = response.xpath('//form[@id="pagerSubmitForm"]/a/text()').extract()
        # re.match找到数字
        page_max = max([int(page_max) for page_max in page_max_s if re.match('\d+', page_max)])
        # 测试用
        # page_max = 2
        # 提交每一页的表单到parse_page1
        for page in range(1,page_max + 1):
            # 先获取表单数据，并且deepcopy
            form_data = deepcopy(response.meta['form_data'])
            # 表单提交的数据就是str:currentPage=''
            form_data['currentPage'] = str(page)
            request = scrapy.FormRequest(
                url='http://ss.ebnew.com/tradingSearch/index.htm',
                formdata=form_data,
                callback=self.parse_page1,
                )
            request.meta['form_data'] = form_data
            yield request

    # parse_page1将第一个页面的xpath的list提取出来，并且保存一部分sql_data数据
    #  detail_url = '',      # 招标详细页网址
    #  title='',             # 第三方网站发布标题
    #  toptype='',           # 信息类型
    #  province='',          # 归属省份
    #  product='',           # 产品范畴
    #  tendering_manner='',  # 招标方式
    #  publicity_date='',    # 招标公示日期
    #  expiry_date='',       # 招标截止时间
    def parse_page1(self, response):
        form_data = response.meta['form_data']
        # xpath所有的页面div，其是一个列表
        div_x_s = response.xpath('//div[contains(@class,"abstract-box")]')
        for div_x in div_x_s:
            # 第一次引用class属性，所以用self
            sql_data = deepcopy(self.sql_data)
            # sql_data['web']='必联网'，在class属性中已经默认
            sql_data['detail_url'] = div_x.xpath('./div[1]/a/@href').extract_first()
            sql_data['toptype'] = div_x.xpath('./div[1]/i[1]/text()').extract_first()
            sql_data['title'] = div_x.xpath('./div[1]/a/text()').extract_first()
            sql_data['province'] = div_x.xpath('./div[2]/div[2]/p[2]/span[2]/text()').extract_first()
            sql_data['product'] = div_x.xpath('./div[2]/div[1]/p[2]/span[2]/text()').extract_first()
            sql_data['tendering_manner'] = div_x.xpath('./div[2]/div[1]/p[1]/span[2]/text()').extract_first()
            sql_data['publicity_date'] = div_x.xpath('./div[1]/i[2]/text()').extract_first()
            # 去掉'发布日期：'
            sql_data['publicity_date'] = re.sub('[^0-9\-]', '', sql_data['publicity_date'])
            sql_data['expiry_date'] = div_x.xpath('./div[2]/div[2]/p[1]/span[2]/text()').extract_first()
            if sql_data['expiry_date']:
                sql_data['expiry_date'] = re.sub('[0-9]{2}[:][0-9]{2}[:][0-9]{2}', '', sql_data['expiry_date'])
            else:
                sql_data['expiry_date'] = ""
            sql_data['keyword'] = form_data.get('key')
            # print( sql_data['detail_url'],sql_data['toptype'],sql_data['title'])
            # 因为page2是get请求，所以不需要FormRequest
            request = scrapy.Request(
                url=sql_data['detail_url'],
                callback=self.parse_page2,
                )
            # 将sql_data封装在meta里面，传值
            request.meta['sql_data'] = sql_data
            # print(sql_data)
            yield request

    # 页面2处理sql_data的其他部分数据
    # projectcode='',  # 项目编号
    # industry='',  # 归属行业
    def parse_page2(self, response):
        sql_data = response.meta['sql_data']
        # print(sql_data)
        sql_data['projectcode'] = response.xpath(
            '//ul[contains(@class,"ebnew-project-information")]/li[1]/span[2]/text()').extract_first()
        # 在页面中使用正则找到项目编号
        if not sql_data['projectcode']:
            projectcode_find = re.findall(
                '(项目编码|项目标号|采购文件编号|招标编号|项目招标编号为|项目编号|竞价文件编号|招标文件编号)[：:]{0,1}\s{0,2}\n*(</span\s*>)*\n*(<span.*?>)*\n*(<u*?>)*\n*([a-zA-Z0-9\-_\[\]]{1,100})',
                response.body.decode('utf-8'))
            if projectcode_find:
                sql_data['projectcode'] = projectcode_find[0][4] if projectcode_find else ""
        sql_data['industry'] = response.xpath(
            '//ul[contains(@class,"ebnew-project-information")]/li[8]/span[2]/text()').extract_first()
        # sql_data是一个字典的时候，scrapy engine自动判断将sql_data传递给pipeline
        yield sql_data