概述
企业需要根据样本采集回来的数据情况进行有条件的分析计算出一个基本值或者多个维度的多个基本值,然后用该基本值作参考来评估每一个数据的情况,进行业务活动.
不确定性:
- 样本数据准确性低
- 样本数据的缺胳膊少腿的现象严重
- 样本数据的多样性
由于样本数据需要进过一定条件的筛选过滤和处理,客户.对样本地点进过什么样的处理没有直接概念,以及对数据的处理准确性有疑问
数据量大
- 样本数据达到5万左右,涉及的关联条件多,导致数据追踪困难.
- 处理的数据达80万左右,数据清洗的规则复杂,不好监控
多算法
- 数据清洗的算法目前是3中分类,未来可能有更多的分类算法
总结
- 一定要有数据中间结果表,对数据的处理过程不仅能够分析到而且必须能够监测到处理过程中的结果数据,因为客户随时都会要求核对数据
- 性能的规划,对应处理大数据量在sql性能方面的要求,索引,主键,分区,视图都可以利用起来.
- 大数量的时候最好要分步骤去执行,这样和过程结果表中数据呼应起来
- 大数据量的时候,能够提前做的事情可以提前做好,能够提前筛选和分析的数据可以提前分析,这样可以减少同一时间资源的消耗,其实就是分时段去做.