数据分析平台

1. 爬虫程序

数据的定时获取是平台的基础:

  • 采用mysql存储原始数据
  • 采用ES作为数据查询的搜索引擎
  • 采用logstash将mysql数据迁移更新到ES中
  • 采用supervisor维护各项组件服务的执行
  • 采用cronsun维护数据分析服务的执行

1. 1 数据爬虫——>MySQL

从网上定时抓取数据后,进行一系列的字段解析处理,转为结构化的数据存入mysql数据库中。
项目:spider_by_realtime
依赖服务:

  • 民航:
  • 海关
# Linux--64版本
geckodriver 0.21.0  
Firefox 78.14.0esr
selenium==3.141.0
  • 招标
# Linux--64版本
# 品目分类模型
torch==1.4.0
# 标的关键内容实体识别  
tensorflow==1.12.2
# 供应商的实体识别
http://10.30.239.199:5004/
# Linux--64版本
chromedriver 
chrome
selenium==3.141.0 
  • 新冠
 #  socks
 https://blog.csdn.net/shlhhy/article/details/117926433

猜你喜欢

转载自blog.csdn.net/shlhhy/article/details/120482744