机器学习方法的概念总结(三刷!!!)

 想必很多伙伴都会在学习机器学习的时候,学习某个算法时,对文中或者视频中作者说的专业名词比较陌生。在此我总结了一些大家容易忽视的概念(大家记住就好,后面学习了机器学习算法就自然就懂啦~)。不要觉得没用哈~找工作的笔试可能会遇到哦~~

1. 监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y);训练数据与测试数据被看作是依赖联合概率分布P(X,Y)独立同分布产生的。

2. 模型属于由输入空间到输出空间映射的集合,这个集合就是假设空间(也就是所有可能的映射关系的集合)。假设空间的确定意味着学习范围的确定。

3. 结构风险最小化等价于正则化,结构风险 = 经验风险 + 正则化项。

4. 模型选择的典型方法是正则化,正则化是结构风险最小化策略的实现。正则化一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大(故引入正则化项可以降低模型复杂度,进而可防止过拟合。)正则化的作用就是选择经验风险与模型复杂度同时较小的模型(奥卡姆剃刀原理)。

正则化项可以是模型参数向量的范数。如L1范数 \lambda \left \|W \right \|与L2范数\lambda \left \| W \right \|^{2} ,式中的W是模型的参数,如ax1+bx2+cx3中的a,b,c。

5. 模型选择的另一常用方法是交叉验证,对于此我会在后面专门讲交叉验证,以及它的Python实现。

6. 训练误差小的模型,泛化误差也会小。

7. 监督学习方法可以分为生成方法判别方法。

生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y | X)作为预测的模型,即生成模型。典型的生成模型有:朴素贝叶斯和隐马尔可夫模型。

判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(Y | X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。典型的判别模型有:SVM,Logistic,决策树,提升方法等。

猜你喜欢

转载自blog.csdn.net/weixin_42180810/article/details/81266518
今日推荐