李航统计学习第一章-概论

监督学习，非监督学习，半监督学习，强化学习等。

输入X和输出Y具有联合分布概论的假设是监督学习关于数据的基本假设。

方法 = 模型 + 策略 + 算法

正则化

让所求的参数具有稀疏性，增加泛化能力。

【问】L1和L2范数的区别和选择？
L1：倾向产生稀疏参数
L2：倾向产生接近于0的参数
https://www.cnblogs.com/lyr2015/p/8718104.html

交叉验证

重复地使用数据，把给定的数据进行切分，将切分的数据集组合为训练集和测试集，在此基础上反复地进行训练、测试以及模型的选择。

简单交叉验证：首先数据集切分成训练集，测试集两部分（例如70%训练，30%测试）；其次用训练集在各种条件下（例如，不同参数个数）训练模型，从而得到不同的模型；最后在测试集上评价各个模型的训练误差，选出测试误差最小的模型。
S折交叉验证：首先随机的将数据切分为S个互不相交的大小相同的子集；其次利用S-1个自己的数据训练模型，利用余下的自己测试模型；然后将这一过程对可能的S种选择重复进行；最后选出S次评测中平均测试误差最小的模型。

生成方法

判别方法

TP —— 将正类预测为正类数
FN —— 将正类预测为负类数
FP —— 将负类预测为正类数
FN —— 将负类预测为负类数

精确率： $P=\frac{TP}{TP+FP}$

召回率： $P=\frac{TP}{TP+FN}$

F1值： $\frac{2}{F1}=\frac{1}{P}+\frac{1}{R}$

精确度召回率都高时，F1值也会高。