一、数据采集

通常数据处理之前会有数据采集的过程，数据采集会涉及到多数据来源，每中数据来源由于格式等不一致，需要特殊处理。

1.针对不通的数据源，需要做到每个数据源获取数据能够独立。

2.采集过程需要监控，传输之前如有条件，可以做到本地有备份数据，便于异常查找时进行数据比对。

二、数据传输（实时/批量）

数据源本地已经做到有备份的情况下，对于传输异常的时候，需要支持重试，存储端需要支持去重。

数据存储可以针对结果集合进行冗余分类存储，便于数据进行比对,针对存储需要进行副本备份，同时数据可以考虑按生效记录进行叠加存储，支持回溯历史的存储结构进行存储。

数据进行计算，分析的时候需要进行步骤分解，便于准确性的分析和统计

1.计算之前，支持测算，同时支持数据进行分批计算，需要能导出本批次清单基础数据（例如人员或者id），便于数据核对。

2.计算之中，支持快速少量指定的典型数据测算，支持选择，是否存储参与计算过程的全部的中间变量。

3.计算之后，可以选择，支持导出本次计算过程中的所有参与变量和中间变量参数，可以线下根据数据列表对应的参数，进行计算，从而进行数据准确性的核对。

计算过程中，支持针对有问题的数据ID进行染色，染色后的数据，所有的中间过程变量全部进行打印输出。

可视化挖掘过程，需要主要前台图形化界面的数据量

参考：http://www.sohu.com/a/161098814_451520 如何提高计算数据的准确性