爬虫系列文章(一)明确业务需求

1.项目背景

接到业务部门提出需要在国家电网下载文件,详细沟通后将需求逐步明确和澄清,详见:

  • 数据来源
    http://ecp.sgcc.com.cn/ecp1.0/project_list.jsp?site=global&column_code=014001001&project_typ
    e=1
  • 抓取国家电⽹电⼦商务平台所有招标公告,下载“项⽬公告⽂件”
  • 将下载的项⽬公告⽂件解压后,寻找有’货物清单’字样的Excel表格,
  • 将所有的货物清单统⼀合并成⼀个csv⽂件
  • 获取货物清单Excel表格中的指定共15列数据
    ‘包号’, ‘⽹省采购申请⾏号’, ‘项⽬单位’, ‘需求单位’, ‘项⽬名称’, ‘⼯程电压等级’, ‘物资名称’, ‘物资描
    述’,‘单位’, ‘数量’, ‘交货⽇期’, ‘交货地点’, ‘备注’, ‘技术规范ID’, ‘状态’
  • 其中’状态’列是后期添加列,指的是本标书的项⽬状态,例如’已经截标’,‘正在评标’,'评标结束’等
    状态

用Xmind脑图梳理如下:
明确业务需求

2.流程步骤

  • 下载文件
  • 解压文件
  • 修改编码
  • 寻找"货物清单"
  • 合并数据
  • “项目状态”列数据添加到合并数据里

3.工具及技术

  • requests
  • lxml
  • time
  • urllib
  • re,os
  • shutil
  • zipfile
  • threading

以上对需求的拆解以及整体的分析思路
接下来通过代码实现每个步骤:爬虫系列文章(二)爬取页面分析及信息获取

猜你喜欢

转载自blog.csdn.net/weixin_42961082/article/details/114404089