机器学习总结(二)——主要过程和名词

讲述机器学习算法的主要过程,以及涉及的一些名词。

1、物理意义,学习不太算法时需要了解其基于什么样的物理过程,比如逻辑回归是将样本的特征通过函数映射为一个(0,1)之间的数字,如果大于决策边界(如0.5)则判定为标签1,小于则判定为0。物理意义其实相当于模型的定义,或者建立模型建立的过程。

2、决策边界,分类算法是为了把样本分开,然后通过边界(也就相当于分类器或者模型)来判断未知样本的类别,比如逻辑回归LR中的划分边界(0.5)等等。

3、损失函数,也即是目标函数。算法的求解过程就是最优化损失函数的过程,通过最优化损失函数来调整模型的参数,比如神经网络中损失函数对权重W及偏差b的调整。常用的损失函数有好几种,损失函数的最优化方法也有好几种,将专文进行论述。

4、参数和超参数,parameters & hyperparameters。参数一般是指模型内部的参数,如神经网络中的权重和偏差。超参数则是需要人为根据经验去设置,属于模型外部的参数,比如SVM中的C值和sigma值。

5、训练集和测试集,Train set &Test Set。将手上的样本分为训练集和测试集,训练集用来训练模型,测试集用来检验模型的准确率等等泛化性能。为了通过比较来确定一些超参数,常常使用交叉验证将训练集随机划分为k折,随机选取k份作为训练集,剩下1份作为验证集来比较不同参数下机器的性能。测试集相当于考试题,用来最后用来检测模型的学习能力,训练集就相当于给模型的留的练习题,一部分练习题会用来学习,另一部分(验证集)就留着做考前的自我测试。

6、过采样和下采样,oversample & undersample。当出现样本集中一类样本数量远小于另一类样本时,比如确定医院检查样本中癌症确症病例,患癌数目比不患癌如果直接数目低很多,如果使用该数据集进行训练,得到的模型准确率也许会很高(机器只要全部判定为不患癌即可得到90%以上的准确率),但是召回率会很低,得到的模型没有实际的价值。下采样是把样本数量多的(不患癌的)减少,然后和另一类(患癌的样本)放在一起,进行训练。过采样是把数量少的扩充,然后和数量多的放在一起训练。

7、性能度量,performance measure。对模型泛化能力的评估标准,需要注意的是性能度量反映的是任务需求,这说明模型的好坏是相对的,不仅取决于算法和数据,还取决于任务需求。回归的性能度量主要是均方误差(mean squared error)。分类的性能度量有错误率和精度,分别指分类错误和正确在总样本中所占的比例;查全率(P值)和查准率(R值),表征的是“判断为正的有多少是正样本的”以及“正样本中有多少被判断为正”。可以对应混淆矩阵来计算。 

8、欠拟合和过拟合,under-fit & over-fit。一个模型表现不是很好时,一般来说是两种情况:偏差比较大(欠拟合),方差比较大(过拟合)。针对欠拟合常采取的措施有增加样本特征项,增加多项式特征,减小正则化系数等等。过拟合则更加常见,常采取的措施如增大训练样本量,采用正则化方法(包括L0、L1、L2,常用的是L2正则项),还有就是神经网络中常用的dropout方法(也就是让部分神经元不工作)。

猜你喜欢

转载自blog.csdn.net/chkay399/article/details/81841074