1. 爬虫程序
数据的定时获取是平台的基础:
- 采用mysql存储原始数据
- 采用ES作为数据查询的搜索引擎
- 采用logstash将mysql数据迁移更新到ES中
- 采用supervisor维护各项组件服务的执行
- 采用cronsun维护数据分析服务的执行
1. 1 数据爬虫——>MySQL
从网上定时抓取数据后,进行一系列的字段解析处理,转为结构化的数据存入mysql数据库中。
项目:spider_by_realtime
依赖服务:
- 民航:
- 海关
# Linux--64版本
geckodriver 0.21.0
Firefox 78.14.0esr
selenium==3.141.0
- 招标
# Linux--64版本
# 品目分类模型
torch==1.4.0
# 标的关键内容实体识别
tensorflow==1.12.2
# 供应商的实体识别
http://10.30.239.199:5004/
# Linux--64版本
chromedriver
chrome
selenium==3.141.0
- 新冠
# socks
https://blog.csdn.net/shlhhy/article/details/117926433