机器学习(一)基础常用损失函数、评价指标、距离、指标

机器学习(一)

1.基础

1.1 数据集划分方式

留出法
- 按正负例比例划分数据集，多次训练模型取平均
交叉验证
- k折交叉验证形成k个数据集，每次取其中的 $\frac{1}{k}$ 作为验证集
Bootstrapping
- 每次从样本容量为D的集合重复的取元素D次，形成新的样本容量为D数据集
- 某一样样本始终不出现的概率为 $(1-\frac{1}{D})^D$ ，取极限后， $\lim_{D\rightarrow\infty}(1-\frac{1}{D})^D\approx\frac{1}{e}$ ，约为0.368
比较
- 自助法适合于数据集小，难以有效划分的训练集测试集使用，此外划分不同的训练集测试集适合集成学习。
- 自助法改变了数据的初始分布，引入估计偏差，数据量足够交叉验证更多使用。
- 交叉验证可以降低模型的方差，更加稳定

1.2 常用损失函数

L2损失

$\begin{matrix} (1) & l o s s = \frac{1}{n} \sum_{i = 1}^{n} ({\hat{y}}_{i} - y_{i})^{2} \end{matrix}$ $loss = \frac{1}{n}\sum_{i=1}^n(\hat y_i - y_i)^2\tag1$
L1损失

$\begin{matrix} (2) & l o s s = \frac{1}{n} \sum_{i = 1}^{n} | {\hat{y}}_{i} - y_{i} | \end{matrix}$

L1 不可导，可采用坐标轴下降的方式进行计算
- 延着坐标轴的方向进行参数的更新，不依赖于梯度
- 每次更新固定m-1个参数，只对一个参数进行优化，求局部极小值点
- 对于可微凸函数，如果参数的一个解在对于函数在某个坐标轴上能达到最小值，那么这个参数就是f的全局最小点
- 坐标轴下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索，固定其他的坐标方向，找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值
交叉熵损失 nn

$\begin{matrix} (3) & l o s s = - \frac{1}{n} \sum_{i = 1}^{n} \sum_{j = 1}^{k} y_{i j} l o g {\hat{y}}_{i j} \end{matrix}$ $loss = -\frac{1}{n}\sum_{i=1}^n\sum_{j=1}^{k}y_{ij}log\hat y_{ij}\tag3$
指数损失 Adaboost

$\begin{matrix} (4) & l o s s = \frac{1}{n} \sum_{i = 1}^{n} e^{- y_{i} {\hat{y}}_{i}} \end{matrix}$ $loss = \frac{1}{n}\sum_{i=1}^ne^{-y_i\hat y_i}\tag4$
Hinge loss svm

$\begin{matrix} (5) & l o s s = \frac{1}{n} \sum_{i = 1}^{n} C m a x (0, 1 - y \hat{y}) + Ω (\hat{y}) \end{matrix}$ $loss = \frac{1}{n}\sum_{i=1}^nCmax(0, 1-y\hat y)+\Omega(\hat y)\tag5$
经验风险 + 结构风险

1.3 常用性能度量

准确率

$\begin{matrix} (6) & A c c u r a c y = \frac{T P + T N}{N} \end{matrix}$
- 准确率在类别极度不平衡问题上，作为评级指标不是十分合适。例如，1000个样本中，990个正例，10个负例，分类器预测准确率为90%，而全将样本作为正例都有99%的准确率。
查准率

$\begin{matrix} (7) & P r e c i s i o n = \frac{T P}{T P + F P} \end{matrix}$
- 查准率可以理解为，分类器判断的正例中有多少是正确的。
查全率

$\begin{matrix} (8) & R e c a l l = \frac{T P}{T P + F N} \end{matrix}$
- 查全率可以理解为，分类器找出了多少的正例。
F1值

$\begin{matrix} (9) & F 1 = \frac{2 P R}{P + R} \end{matrix}$
- P, R成反向趋势，P增加R减少，F1综合考虑了P、R
P(纵轴)-R(横轴) 曲线
- 以学习器的预测结果对样例进行排序，排在前面的认为是正例，排在后面的认为是负例，则可以计算当前的P-R值。
- 曲线底下面积越大一般来说性能越好。
Precision@k RecSys
$\begin{matrix} (10) & P r e c i s i o n @ k = \frac{\sum_{i = 1}^{n} r e c (u_{i}, k) \cap I (u_{i})}{n * k} \end{matrix}$ $Precision@k= \frac{\sum_{i=1}^nrec(u_i,k)\cap I(u_i)}{n*k}\tag{10}$
Recall@k RecSys
$\begin{matrix} (11) & R e c a l l @ k = \frac{\sum_{i = 1}^{n} r e c (u_{i}, k) \cap I (u_{i})}{\sum_{i = 1}^{n} | I (u_{i}) |} \end{matrix}$ $Recall@k= \frac{\sum_{i=1}^nrec(u_i,k)\cap I(u_i)}{\sum_{i=1}^n|I(u_i)|}\tag{11}$
ROC 曲线

$\begin{matrix} (12) & T P R = \frac{T P}{T P + F N} \end{matrix}$

$\begin{matrix} (13) & F P R = \frac{F P}{T N + F P} \end{matrix}$
- ROC 曲线泛化性能的好坏，纵轴为真正率，横轴为假正率，逐个将样本作为正例，得到ROC曲线
AUC
- AUC为ROC曲线底下面积
- 分类器在二分类时预测概率，需要设置阈值判断正负例。
- 考虑的是样本预测排序质量，与排序损失紧密联系。
  $\begin{matrix} (14) & R a n k L o s s = \frac{1}{m^{+} m^{-}} \sum_{x^{+} \in D^{+}} \sum_{x^{-} \in D^{-}} (I (f (x^{+}) < f (x^{-})) + \frac{1}{2} (I (f (x^{+}) = f (x^{-}))) \end{matrix}$ $Rank\text{ }Loss = \frac{1}{m^+m^-}{\sum_{x^+\in D^+}\sum_{x^-\in D^-}}(I(f(x^+)<f(x^-))+\frac{1}{2}(I(f(x^+)=f(x^-)))\tag{14}$
  $A U C = 1 - R a n k L o s s$ $AUC=1-Rank\text{ }Loss$
- 排序质量的好坏综合体现了学习器期望泛化性能的好坏，重视查准率在排序靠前的位置截断，重视查全率在排序靠后的位置截断

1.4 常用距离、相似度

闵可夫斯基距离

$\begin{matrix} (15) & d i s t (x_{i}, x_{j}) = (\sum_{k = 1}^{n} | x_{i k} - x_{j k} |^{p})^{\frac{1}{p}} \end{matrix}$
- p=2，欧式距离
- p=1，曼哈顿距离
马氏距离

$\begin{matrix} (16) & d i s t (x_{i}, x_{j}) = \sqrt{(x_{i} - x_{j})^{T} s^{- 1} (x_{i} - x_{j})} \end{matrix}$
- 闵可夫斯基距离在使用之前需要标准化，而马氏距离不需要
- 马氏距离与量纲无关，排除了变量之间相关性的干扰
余弦相似度
$\begin{matrix} (17) & s i m (x_{i}, x_{j}) = \frac{x_{i} \cdot x_{j}}{| | x_{i} | | \cdot | | x_{j} | |} \end{matrix}$ $sim(x_i,x_j)=\frac{x_i\cdot x_j}{||x_i||\cdot ||x_j||}\tag{17}$
皮尔逊相关系数

$\begin{matrix} (18) & s i m (x_{i}, x_{j}) = \frac{(x_{i} - μ_{i}) \cdot (x_{j} - μ_{j})}{| | (x_{i} - μ_{i}) | | \cdot | | x_{j} - μ_{j} | |} \end{matrix}$
- 对余弦相似度去中心化
TF IDF
$\begin{matrix} (19) & T F (x_{i}) = \frac{N_{x_{i}}}{\sum_{k = 1}^{m} N_{x_{k}}} \end{matrix}$ $TF(x_i)=\frac{N_{x_i}}{\sum_{k=1}^mN_{x_k}}\tag{19}$
$\begin{matrix} (20) & I D F (x_{i}) = l o g \frac{| D |}{1 + | D_{c o n t a i n_x_{i}} |} \end{matrix}$ $IDF(x_i)=log\frac{|D|}{1+|D_{contain\_x_i}|}\tag{20}$
$\begin{matrix} (21) & T F - I D F (x_{i}) = T F (x_{i}) \cdot I D F (x_{i}) \end{matrix}$ $TF-IDF(x_i)=TF(x_i)\cdot IDF(x_i)\tag{21}$

1.5 信息论指标

熵

$\begin{matrix} (22) & H (x) = - \sum_{x} p (x) l o g p (x) \end{matrix}$
- 熵可以看成是观察事件X发生后我们获得的期望信息量，H(x)越大，那么说明我们获得的信息量越大
条件熵

$\begin{matrix} (22) & H (x | z) = - \sum_{x} \sum_{z} p (x, z) l o g p (x | z) = \sum_{x} p (x) H (x | Z = z) \end{matrix}$
- 表明已知z对x带来的期望信息
相对熵

$\begin{matrix} (23) & K L (p | | q) = \sum_{x} p (x) l o g \frac{p (x)}{q (x)} \end{matrix}$
- KL散度衡量概率密度的距离相对于原分布p，分布q损失的信息量。
互信息、信息增益

$\begin{matrix} (24) & G a i n (x, z) = H (x) - H (x | z) \end{matrix}$
- 已知特征z为识别x带来了多少的信息。
信息增益
$\begin{matrix} (25) & G a i n R a t i o (x, z) = \frac{H (x) - H (x | z)}{H_{x} (z)} \end{matrix}$ $Gain Ratio(x,z)=\frac{H(x)-H(x|z)}{H_x(z)}\tag{25}$
Gini指数
$\begin{matrix} (26) & G i n i (D) = 1 - \sum_{i = 1}^{c} p_{i}^{2} \end{matrix}$ $Gini(D)=1-\sum_{i=1}^cp_i^2\tag{26}$
$\begin{matrix} (27) & G i n i_I n d e x (D, a) = \sum_{i = 1}^{k} \frac{| D^{k} |}{| D |} G i n i (D^{k}) \end{matrix}$ $Gini\_Index(D, a)=\sum_{i=1}^{k}\frac{|D^k|}{|D|}Gini(D^k)\tag{27}$

机器学习(一)基础常用损失函数、评价指标、距离、指标

机器学习(一)

1.基础

猜你喜欢