机器学习的概念是什么？机器学习学的是什么？

1.机器学习就是用机器模拟人的学习行为。
2.机器学习学的是数据中的经验，机器学习的对象是数据，目的是从数据中学习经验，这个经验也被称为模型。

什么叫做泛化能力，我们可以通过哪些途径增强我们训练出的模型的泛化能力？

1.泛化能力：学习得到的模型适用于新样本的能力。
2.增加训练样本，得到样本空间的信息就越多，可以增强训练出的模型的泛化能力。

假设空间与版本空间的区别与联系是什么?

1.什么是好瓜？在我们不是很确定或者根本不知道什么是好瓜的时候，可以先做出假设，假设色泽为青绿，根蒂为蜷缩，敲声为浊响的是好瓜，这就是一个假设。
2.假设空间是由所有可能的假设所组成的集合，例如，在没有任何知识加入的时候，任何瓜都可能是好瓜。
3.与训练集一致的假设集合称为版本空间，例如，若训练集中只有色泽为青绿，根蒂为蜷缩，敲声为浊响的才是好瓜，那么，色泽为青绿，根蒂为蜷缩，敲声为浊响就是该训练集的版本空间。
4.显然，版本空间是样本空间的一个子集。

归纳偏好的概念以及它的作用是什么?

1.机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”。
2.作用：与训练集一致的假设可能不止一个，对一个新到来的瓜，用A假设判断是好瓜，用B假设判断是坏瓜，这可能导致根本无法判断。归纳偏好的作用正在于此，比如我们更偏好A假设，那么就直接判断这个新来的瓜是好瓜。

什么是过拟合、欠拟合?如何避免这些情况?

1.过拟合：一种把训练样本的自身的一些特点当作了所有潜在样本都会具有的一般性质的现象，比如用两片锯齿形的绿色椭圆树叶作为训练样本，过拟合模型会误认为树叶必须有锯齿。
2.欠拟合：训练样本的一般性质尚未学好的现象，比如欠拟合模型会误认为只要是绿色的都会是树叶。
3.欠拟合可以通过增强训练来克服。
4.过拟合则无法彻底避免。

什么是交叉验证?什么时候要使用交叉验证?为什么?

1.交叉验证法：将数据集通过分层采样划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，可进行k次训练和测试，最终返回这k个测试结果的均值。
2.交叉验证法在数据样本有限，无法获得新样本时使用。

如何评价模型性能？常用的性能指标有哪些？

1.使用性能度量指标评价。
2.常用的性能指标
(1)错误率、精度
(2)查准率、查全率与F1
(3)ROC、AUC
(4)代价敏感错误率与代价曲线

偏差与方差是什么？过拟合，欠拟合，分别对应偏差与方差的什么情况？

1.偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。
2.方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。
3.过拟合对应偏差很小，方差很大的情况。
4.欠拟合对应偏差很大，方差很小的情况。

特征归一化是什么？为什么要归一化？常用的归一化方法有哪些？

1.原始数据经过数据标准化处理后，使各指标处于同一数量级。
2.适合进行综合对比评价。
3.常用的归一化方法
(1) 线性函数归一化：线性函数将原始数据线性化的方法转换到[0 1]的范围。
(2) 0均值归一化：0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集。

什么是梯度下降算法?解释小批量随机梯度下降，随机梯度下降

1.梯度下降法：梯度可以反映函数下降的陡峭程度，梯度下降算法就是沿着函数最陡峭的方向，即梯度最小的方向往前走一定步长，反复此过程直至找到最优解。
2.随机梯度下降：随机梯度下降是每次迭代使用一个样本来对参数进行更新，使得训练速度加快，但准确度会下降。
3.小批量随机梯度下降：为了兼顾稳定下降和随机特性以及小计算量。每次迭代选取总体样本中的一小批样本计算损失函数，但选取的样本数不是很好确定。

机器学习基础知识篇——《机器学习》周志华著