数据分析和数据挖掘的一些知识点

贝叶斯公式

条件概率的展开、转化

关联规则分析

支持度、置信度、提升度
KULC IR

聚类

聚类之间类的度量是分距离和相似系数来度量的

距离

距离用来度量样品之间的相似性（k-means聚类，系统聚类中的Q型聚类）

相似系数

相似系数用来度量变量之间的相似性（系统聚类的R型聚类）

最常用的是k-means聚类，适用于大样本，需要事先制定k个类别
步骤：
1、从n个数据中任意选择k个对象作为初始的聚类中心
2、计算剩余的各个对象到聚类中心的距离，将其划分给最近的簇
3、重新计算每一簇的平均值（中心对象）
4、循环2~3直至每个聚类不在变化

另：系统聚类适用于小样本

分类的评判指标

准确率和召回率
1、准确率：提取出的正确信息条数/提取出的信息条数
2、召回率：提取出的正确信息条数/样本中的信息条数
ROC和AUC是评价分类器的指标
3、ROC：TPR 真正率，代表预测为正实际也为正占总正实例的比例；FPR 假正率，代表预测为正实际为负占总负率的比例。
ROC空间中，横坐标是FPR，纵坐标是TPR。
4、AUC 定义为ROC下的面积，不会大于1，取值为0.5~1.。
很多时候，ROC曲线不能清晰的说明哪个分类器的效果更好，而AUC作为数值可以直观的评价分类器的好坏，值越大越好。
5、如何避免过拟合
解决方法：增大数据集，正则化
正则化的引入，使得在训练的过程中，当某一维的特征所对应的权重过大时，而此使模型的预测和真实数据之间距离很小，通过正则化就可以使得整体的cost取较大的值，从而在训练中避免选择那些某一维（或几维）的特征。
L1正则：计算绝对值之和，用以产生稀疏性，是参数矩阵中大部分参数为0，时L0范式的一个最优凸近似，容易近似求解。
L2正则：计算平方和在开根号，防止过拟合，并且让优化求解变得稳定快速。
优先使用L2。

二叉树（前中后遍历）

前序遍历：首先访问根结点，然后遍历左子树，最后遍历右子树
中序遍历：左子树-根结点-右子树
后序遍历：左子树-右子树-根结点

排序算法

冒泡排序

将等待排序的元素看作是竖着排列的气泡，较小的元素较轻，从而往上浮。稳定的，时间复杂度O(n^2)

插入排序

经过i-1遍处理后，L[1....i-1]已排好序，第i遍处理仅将L[i]插入L[1...i-1]的适当位置。
时间复杂度同上，稳定

堆排序

树形选择排序，将A[n]看成是完全二叉树的顺序存储结构，利用完全二叉树中双亲结点和孩子结点之间的内在关系来选择最小的元素。
不稳定，时间复杂度O(nlog n)

快速排序

对冒泡排序的一种改进，通过一次扫描，就能确保某个数(以它为基准)的左边各数都比它小，右边各数都比它大
不稳定，最理想O(nlog 2n)，最坏O(n^2)

SQL知识

左连接右连接 inner连接 full连接
修改表
表权限的赋予
怎样清空表数据，但是不删除表结构
外键能不能为空：可以为空，为空表示其值还没有确定；如果不为空，那么必须为主键相同。

统计学基础知识

四分卫极差、左右偏分布、p值
方差分析：用于两个及两个以上样本均数差别的显著性检验，通过分析研究不同来源的变异对总变异的贡献大小，从而确定控制变量对研究结果影响力的大小。
主成分分析：通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。
幸存者偏差：当取得资讯的渠道，仅来自于幸存者时，此资讯可能会存在与实际情况不同的偏差。

参考：http://www.ppvke.com/Blog/archives/39735