通俗理解机器学习里的一些概念

本文主要来源于中国地质大学自动化学院陈鑫老师的《机器学习》课程的听课笔记！

ps. (老师，请给我打100分)

-----------------------------------------------------------------------------------------------------------------

1：回归（regression）

根据样本，研究多个变量之间的依存关系。

2：过拟合（overfitting）

为了迎合所有的样本（其中也可能包括噪声），而使得模型过于复杂。

造成过拟合的原因可能有：训练样本太少；力求完美，即希望用拟合的模型覆盖所有的样本向量点。

过拟合的危害：描述复杂，即参数太多或者计算逻辑太复杂；失去泛化能力。

3：泛化能力

一个模型，通过训练和学习之后，对新的未知数据的预测能力，称为泛化能力。

4：欠拟合

与过拟合相反，对线性回归中的因素考虑不足。

5：Python

Python和C语言不一样，它是一种脚本语言。

C语言写完源代码后，是需要编译成二进制代码才能够执行的；

Python则与C语言不同，在生产环境中出现的仍然是源代码 .py 的脚本文件形式，在执行的瞬间才由Python解释器将源代码转换为字节码，然后再由Python解释器来执行这些字节码。

6：验证集的作用

检验模型的泛化能力。

7：k折交叉验证

把数据集分成K组，取k-1组作为训练数据，1组作为测试数据，总共执行k次。

8：机器学习的什么

机器学习里边，我们训练模型学习的，不是模型，而是模型的参数。

9：算法的好坏

算法没有谁好谁坏，只是针对的任务不同，算法的作用效果不同。

10：什么是独立同分布

独立同分布的意思就是说数据集之间互斥。

11：什么是算法参数

算法参数一般是由人工设定，也叫做超参数，是根据人的经验人为设置的，如神经网络里的隐层层数、神经元个数。

12：什么是模型参数

模型参数是由模型学习得到的，如神经网络里的权重、偏差。

13：为什么超参数不由学习得到

如果把超参数也由学习得到，那么你会发现，它是具有离散型的。

14：模型的性能度量方式

性能度量是衡量泛化能力的方式，回归任务中常用均方误差来计算；分类任务中常用错误率和精度表示；此外还有查准率vs查全率；宏查准率vs微查全率等。

15：测试性能和泛化能力的关系

测试性能≠泛化能力，测试性能随测试集的变化而变化。

16：自己文章对比其他文章时的注意事项

要注意所选的超参数要与别人的超参数设置相同。

17：怎么找到过拟合的地方

过拟合发生在哪，一般找不到，但可以通过大量的训练集去估计。

18：建立决策树的关键

选取划分属性。

19：信息增益

信息增益 = 划分前的信息熵 - 划分后的信息熵

20：激活函数的作用

用来对输入放大相应的倍数。

通俗理解机器学习里的一些概念

猜你喜欢