机器学习总结（二）——主要过程和名词

讲述机器学习算法的主要过程，以及涉及的一些名词。

1、物理意义，学习不太算法时需要了解其基于什么样的物理过程，比如逻辑回归是将样本的特征通过函数映射为一个（0,1）之间的数字，如果大于决策边界（如0.5）则判定为标签1，小于则判定为0。物理意义其实相当于模型的定义，或者建立模型建立的过程。

2、决策边界，分类算法是为了把样本分开，然后通过边界（也就相当于分类器或者模型）来判断未知样本的类别，比如逻辑回归LR中的划分边界（0.5）等等。

3、损失函数，也即是目标函数。算法的求解过程就是最优化损失函数的过程，通过最优化损失函数来调整模型的参数，比如神经网络中损失函数对权重W及偏差b的调整。常用的损失函数有好几种，损失函数的最优化方法也有好几种，将专文进行论述。

4、参数和超参数，parameters & hyperparameters。参数一般是指模型内部的参数，如神经网络中的权重和偏差。超参数则是需要人为根据经验去设置，属于模型外部的参数，比如SVM中的C值和sigma值。

5、训练集和测试集，Train set &Test Set。将手上的样本分为训练集和测试集，训练集用来训练模型，测试集用来检验模型的准确率等等泛化性能。为了通过比较来确定一些超参数，常常使用交叉验证将训练集随机划分为k折，随机选取k份作为训练集，剩下1份作为验证集来比较不同参数下机器的性能。测试集相当于考试题，用来最后用来检测模型的学习能力，训练集就相当于给模型的留的练习题，一部分练习题会用来学习，另一部分（验证集）就留着做考前的自我测试。

6、过采样和下采样，oversample & undersample。当出现样本集中一类样本数量远小于另一类样本时，比如确定医院检查样本中癌症确症病例，患癌数目比不患癌如果直接数目低很多，如果使用该数据集进行训练，得到的模型准确率也许会很高（机器只要全部判定为不患癌即可得到90%以上的准确率），但是召回率会很低，得到的模型没有实际的价值。下采样是把样本数量多的（不患癌的）减少，然后和另一类（患癌的样本）放在一起，进行训练。过采样是把数量少的扩充，然后和数量多的放在一起训练。

7、性能度量，performance measure。对模型泛化能力的评估标准，需要注意的是性能度量反映的是任务需求，这说明模型的好坏是相对的，不仅取决于算法和数据，还取决于任务需求。回归的性能度量主要是均方误差（mean squared error）。分类的性能度量有错误率和精度，分别指分类错误和正确在总样本中所占的比例；查全率（P值）和查准率（R值），表征的是“判断为正的有多少是正样本的”以及“正样本中有多少被判断为正”。可以对应混淆矩阵来计算。

8、欠拟合和过拟合，under-fit & over-fit。一个模型表现不是很好时，一般来说是两种情况：偏差比较大（欠拟合），方差比较大（过拟合）。针对欠拟合常采取的措施有增加样本特征项，增加多项式特征，减小正则化系数等等。过拟合则更加常见，常采取的措施如增大训练样本量，采用正则化方法（包括L0、L1、L2，常用的是L2正则项），还有就是神经网络中常用的dropout方法（也就是让部分神经元不工作）。

机器学习总结（二）——主要过程和名词

猜你喜欢