李航统计学习方法-概论

在概论章节，主要介绍了机器的分类，统计学习三要素，误差分析和过拟合，正则化和交叉验证，泛化误差，生成模型和判别模型的区别，监督学习中的分类问题、标注问题和回归问题的介绍和划分标准。

机器学习分为监督学习、无监督学习、半监督学习和强化学习。

监督学习是通过学习一个模型（所以监督学习的关键是选定一个模型），是模型对任意输入，有一个好的结果预测。在统计学习方法的书中就监督学习进行了理论分析。

监督学习的三要素包括模型、策略和算法。

模型可以分为由决策函数表示的非概率模型和由条件概率表示的概率模型。用公式表示为：

$F=\{{f | Y=f_{}\theta(X), \theta \in R^{}n\}}$

$F=\{{P | Y=P_{}\theta(Y|X), \theta \in R^{}n\}}$

策略是通过一些规则进行学习，在所有模型中选取最好的一个模型。通常在有监督机器学习中采用损失函数的方式表示模型的好坏。损失函数越小，则表示模型越好。常用损失函数包括0-1损失函数、平方损失函数、绝对值损失函数和对数损失函数。

在采用经验风险进行统计时，如果样本过小，可能会导致估计不准确。经验风险的公式如下：

$R{_{emp}}(f) = {\frac{1}{N}}\sum L(y{_{i}}, f(x{_{i}}))$

求得最小化的经验风险，就可以求得哪个模型最优。

在训练样本太小时，采用结构风险替代经验风险，公式如下：

$R{_{emp}}(f) = {\frac{1}{N}}\sum L(y{_{i}}, f(x{_{i}})) + \lambda J(f)$

其中后面一项表示模型的正则化项或者惩罚项。模型越复杂，惩罚项越大。要让经验风险最小，在实践中要遵循奥卡姆剃刀原则，尽量选择简单模型。

算法指的学习模型的具体计算方法。统计学习的算法就是求解最优化问题的方法。主要的目的就是保证找到全局最优解，并尽量使求解的过程高效。

在模型评估和选择的过程中，要求得在测试误差最小化时候的训练误差，这时候的模型才是最优的。同时要防止模型过拟合，选取复杂度适中的模型。这就要采用结构风险替代经验风险。

如果样本量过小，则需要进行交叉验证，即随机选取训练样本和测试样本，进行多次测试，选取测试数据最好的模型。

在有监督机器学习中，模型可以分为生成模型和判别模型。

生成模型主要采用概率的方式进行评估，计算其联合概率分布P(Y|X) = P(X,Y)/P(X)，可以得出一定条件下各结果发生的概率。典型模型有朴素贝叶斯法和隐马尔可夫模型。

判别模型直接学习决策函数f（X）或条件概率分布P(Y|X)，关心的是对给定的输入X，应该预测什么样的输出Y。典型模型有k近邻法、感知机、决策树、逻辑斯特回归模型、最大熵模型、支持向量机、提升方法（boosting）和条件随机场。

生成模型的优点有：可以还原出联合概率分布P(X,Y)，学习收敛速度更快(即适用于大样本)，可以用于存在隐变量的情况。

判别模型的优点有：直接进行预测，往往学习准确率更高，可以对数据进行各种程度上的抽象、定义特征并使用特征，可以简化学习问题。

在第一章中同时介绍了监督学习的三类应用，包括分类问题、标记问题、回归问题。

发布了3 篇原创文章 · 获赞 0 · 访问量 594

私信关注