版权声明:本博客都是作者10多年工作总结 https://blog.csdn.net/Peter_Changyb/article/details/85044332
数据分析过程:问题抽象-》数据域定义-》数据处理-》数据集成-》数据加工-》数据集(用于数据分析的集合)
离线分析:历史数据
实时分析:运行数据
调优方案:
•问题抽象:分类、聚类、推荐、关联规则
•特征获取:预处理
•特征选择-》专业知识(知识库)+算法(逻辑回归+PCA)
•数据模型建立:评价(敏感度、特异度)
•算法库:Weka/Spark/Python/Java/C++;TensorFlow/Torch/Pytorch
•数据特点:大数据4个V
•数据模型的实时更新:按天
•实时预测效率(秒级预测):Spark/Flink
•误差分析:训练集的数据排查
•算法调优