数据挖掘技术

摘自《数据挖掘与数据化运营实战,思路、方法、技巧与应用》
神经网络:通过输入多个非线性模型以及不同模型之间的加权互联(加权的过程在隐蔽层完成),最终得到一个输出模型。其中,隐蔽层所包含的就是非线性函数。
神经网络作为分类、预测问题的重要技术支持、在用户划分、行为预测、营销响应等诸多方面具有广泛的应用前景。以下5个因素对模型结果有重大影响:
1、层数
2、每层输入变量的数量
3、联系的种类
4、联系的程度
5、转换函数

回归:多元线性回归:最小二乘法的参数估计;
逻辑斯蒂回归:最大似然法参数估计

关联规则:主要目的是找出数据集中的频繁模式,支持度和置信度是衡量关联规则强度的两个重要指标,他们分别反应着所发现规则的有用性和确定性。
Apriori算法:
1、生成所有的频繁项目集
2、从频繁项目集中生成所有的可信关联规则
适用场景:数值型数据集的分析,纯文本文档和网页文件,如发现单词间的并发关系以及web的使用模式等。

聚类:划分的方法(K-Means方法)、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。

贝叶斯分类:主要用来预测类成员间关系的可能性。

支持向量机:适合预测、分类的场景。

主成分分析:适合数据处理、降维、变量间关系的探索,专题分析。
假设检验:适合运营效果的评估场景。

猜你喜欢

转载自blog.csdn.net/yousanfen/article/details/82953582
今日推荐