一:监督学习的三要素
模型:总结数据的内在规律,用数学函数描述的系统;
策略:选取最优模型的评价准则;
算法:选取最优模型的具体方法;
二:监督学习的实现步骤
1.得到一个有限的训练数据集
2.确定包含所有学习模型的集合;
3.确定模型选择的准则,也就是学习策略;
4.实现求解最优模型的算法,也就是学习算法;
5.通过学习算法选择最优模型;
6.利用得到的最优模型,对新数据进行预测和分析;
三:监督学习模型评估策略
1.模型评估
(1)训练集和测试集
训练集:输入到模型中对模型进行训练的数据集合;
测试集:模型训练完成后测试训练效果的数据集合;
(2)损失函数和经验风险
损失函数:对于选定的模型f(x),损失函数表示预测值f(x)和真实值Y之间的偏差程度,记为L(Y,f(x));也就是用来衡量模型预测误差的大小,损失函数值越小,模型就越好;
经验风险:模型f(x)关于训练数据集的平均损失称为经验风险;
(3)训练误差和测试误差
训练误差:关于训练集的平均损失;
测试误差:关于测试集的平均损失;
2.模型选择
(1)过拟合和欠拟合
过拟合:特征集过大;
欠拟合:特征集过小;
(2)正则化和交叉验证
正则化:为了防止过拟合而提出的,在经验风险上加上表示模型复杂度的正则化项;
交叉验证:将数据随机的分成两部分,如70%作为训练集,30%作为测试集。
四:分类和回归
分类:预测的结果为离散值;
回归:预测的结果为连续值;
五:监督学习模型求解算法
梯度下降法:
牛顿法和拟牛顿法: