通俗理解机器学习里的一些概念

本文主要来源于中国地质大学自动化学院陈鑫老师的《机器学习》课程的听课笔记!

ps. (老师,请给我打100分)

-----------------------------------------------------------------------------------------------------------------

1:回归(regression)

根据样本,研究多个变量之间的依存关系。

2:过拟合(overfitting)

为了迎合所有的样本(其中也可能包括噪声),而使得模型过于复杂。

造成过拟合的原因可能有:训练样本太少;力求完美,即希望用拟合的模型覆盖所有的样本向量点。

过拟合的危害:描述复杂,即参数太多或者计算逻辑太复杂;失去泛化能力。

3:泛化能力

一个模型,通过训练和学习之后,对新的未知数据的预测能力,称为泛化能力。

4:欠拟合

与过拟合相反,对线性回归中的因素考虑不足。

5:Python

Python和C语言不一样,它是一种脚本语言。

C语言写完源代码后,是需要编译成二进制代码才能够执行的;

Python则与C语言不同,在生产环境中出现的仍然是源代码 .py 的脚本文件形式,在执行的瞬间才由Python解释器将源代码转换为字节码,然后再由Python解释器来执行这些字节码。

6:验证集的作用

检验模型的泛化能力。

7:k折交叉验证

把数据集分成K组,取k-1组作为训练数据,1组作为测试数据,总共执行k次。

8:机器学习的什么

机器学习里边,我们训练模型学习的,不是模型,而是模型的参数。

9:算法的好坏

算法没有谁好谁坏,只是针对的任务不同,算法的作用效果不同。

10:什么是独立同分布

独立同分布的意思就是说数据集之间互斥。

11:什么是算法参数

算法参数一般是由人工设定,也叫做超参数,是根据人的经验人为设置的,如神经网络里的隐层层数、神经元个数。

12:什么是模型参数

模型参数是由模型学习得到的,如神经网络里的权重、偏差。

13:为什么超参数不由学习得到

如果把超参数也由学习得到,那么你会发现,它是具有离散型的。

14:模型的性能度量方式

性能度量是衡量泛化能力的方式,回归任务中常用均方误差来计算;分类任务中常用错误率和精度表示;此外还有查准率vs查全率;宏查准率vs微查全率等。

15:测试性能和泛化能力的关系

测试性能≠泛化能力,测试性能随测试集的变化而变化。

16:自己文章对比其他文章时的注意事项

要注意所选的超参数要与别人的超参数设置相同。

17:怎么找到过拟合的地方

过拟合发生在哪,一般找不到,但可以通过大量的训练集去估计。

18:建立决策树的关键

选取划分属性。

19:信息增益

信息增益 = 划分前的信息熵 - 划分后的信息熵

20:激活函数的作用

用来对输入放大相应的倍数。

猜你喜欢

转载自blog.csdn.net/xylittlework/article/details/79582183