基于shell,python 简易数据采集流程图

一、数据采集目录结构
 

1. Api --数据采集最终 api 目录

(1) Ct --充值提现采集数据

(2) Invest --投资采集数据

(3) Product --产品采集数据

(4) Reward --奖励采集数据

(5) User--用户采集数据

(6) status.txt --采集状态数据

 

2. Databak

(1) Data--数据采集前的当天汇总数据集

(2) Databak --备份采集前一次采集数据

(3) databakBySouAndTar.sh --动态数据源与目标源备份数据

(4) databak.sh --备份本数据源

 

3. Datacheck

(1) Data --数据采集前的当天汇总数据集

(2) Databak --备份采集前一次采集数据

(3) dataclearTitleByNameAndTardir.sh --清洗数据通过名称和数据目标源

(4) dataclearTitle.sh --清洗当前数据

 

4. Dataclear

(1) dataclear.sh 临时清洗数据需求

 

5. dataclearTitle

(1) Data 数据一级清洗目录

(2) Databak 备份数据一级清洗目录

(3) dataclearTitleByNameAndTardir.sh 数据一级清洗工具

(4) dataclearTitle.sh 清洗本流程数据

 

6. datadisposeStringNULL

(1) Data 数据二级清洗目录

(2) Databak 备份二级清洗目录

(3) datadisposeStringNULLBySouAndTardir.sh 数据二级清洗工具

(4) datadisposeStringNULL.sh 清洗本流程数据工具

 

7. Dataformat

(1) Data 数据格式化后数据

(2) Databak 备份格式化后数据

 

(3) dataformat.sh 本流程格式化目录

(4) dataformatTabBysourceAndtar.sh 数据格式化目录

 

8. Datalast

(1) Data 数据最终处理结果目录数据

(2) Databak 备份最终处理结果目录数据

(3) datalastByFileSizeToSplit.sh 数据备份工具

(4) datalast.sh 本流程执行工具

 

9. Dataproduce

(1) Data 原始数据目录

(2) Databak 备份后原始数据目录

(3) dataproduce.sh 本流程工具

(4) dataproductBySQLandProductName.sh 生成原始数据工具

 

10. Datatest

(1) datatest.sh 测试工具

 

11. Dbcron

(1) modulesApiDataByDay_cron.sh --生成当日数据

 

12. Dblog

(1) modulesApiDataByDay.log --当日数据引擎执行日志数据

(2) outputdata.log

 

13. dbPython

(1) bak

(2) replaceTxt.py --Python 实现替换指定字符串数据

 

14. Dbsh

(1) bakdataTodatabakByCover.sh --覆盖备份当日数据

(2) mkdirByPath.sh --根据目录生成文件夹

(3) mkdirModuledir.sh --按照天-根据当前日期生成各个模块文件夹

(4) modulesApiDataByDay.sh --按照天根据当前日期生成各个模块数据

(5) prepareApiData.sh --生成所以 api 数据

(6) produceModuleData.sh --生成模块数据

(7) replaceTab.sh --替换 tab

(8) splitFileBylineCount.sh --根据文件行数实现切割文件引擎

(9) splitFileByTextSizeAndName.sh --根据文件切割大小和文件前缀名称实现切文件

(10) splitFileByTextSize.sh --根据文件切割大小切割文件

 

15. Dbsql

(1) investCollect.sql --投资采集 SQL

(2) productCollect.sql --产品采集 SQL

(3) rewardsCollect.sql --采集奖励投资 SQL

(4) topAdrawCollect.sql --充值和提现 SQL

(5) userCollect.sql--用户采集 SQL

 

16. README 系统简单说明文件

二、数据目录说明

1. 生产数据目录为: /home/wangyi/DepositoryProject/API,其中对应的数据分别为,产品采集,用户采集,充提

采集,奖励采集,投资采集,数据按照天依次递增,同时保留历史数据。

/home/wangyi/DepositoryProject/api/Ct/xxx --充值提现采集数据

/home/wangyi/DepositoryProject/api/Invest/xxx --投资采集数据

/home/wangyi/DepositoryProject/api/Product/xxx --产品采集数据

/home/wangyi/DepositoryProject/api/Reward/xxx --奖励采集数据

/home/wangyi/DepositoryProject/api/User/xxx --用户采集数据

 

2. 开发数据目录:

数据开发工程中只有/home/wangyi/DepositoryProject/Databak 中的数据是全量数据,也就

是从开始进行数据采集到采集时候的所有数据,其它生产目录只保留清洗前一次数据目录

备份

Databak --数据最终切割与汇总输出目录(也是全量数据,包括历史数据)

Dataclear --数据临时清洗目录

dataclearTitle --数据一级清洗目录

datadisposeStringNULL --数据二级清洗目录

Dataformat --数据三级清洗目录

Datalast --数据四级清洗目录

Dataproduce --数据产生层目

三、数据采集流程
 
备注:数据开始采集会在 status.txt 中记录开始采集标记,采集完成也会在 status.txt 中记录数据采集完成
 

猜你喜欢

转载自blog.csdn.net/u012970976/article/details/106716103