常见的机器学习面试问题（持续更新中）

卷积神经网络中的权值共享

输入层和隐层之间若按照全连接方式去连接，权值w的维数太大，为了减少权值w的维数，可以采用隐层的每个神经元与输入层中的10*10个神经元相连，这样就大大减少了w的维数。进一步，如果我们让隐层每个神经元对用的10*10的权重w都相同，那么最后我们的权重w就只有10*10，但是这样子做未免也太粗糙了，提取的特征肯定很少，在此基础上，可以多加几个10*10大小的w就可以了，比如50个，那就可以提取50次特征了，总的w的维度就变成50*10*10个。这就是权值共享。

统计学习（传统机器学习）和深度学习的区别和联系

区别：传统机器学习需要人工设计特征，需要做特征工程，并且特征工程很关键。而深度学习可以自动学习特征，特别是在图像、语言、文本方面，这些数据都有局部和整体的关系，深度学习能发挥很大的作用，但是调参也是一个很繁琐的事情。
联系：深度学习是一种实现机器学习的技术。

LR和SVM的异同

相同点：

LR和SVM都是分类算法
如果不考虑核函数，LR和SVM都是分类算法，也就是说他们的决策面都是线性的
LR和SVM都是监督学习算法
LR和SVM都是判别模型
LR和SVM在学术界都广为人知并且应用广泛

不同点：

本质上是其loss function不同。不同的loss function代表不同的假设前提，也就代表了不用的分类原理。简单来说，逻辑回归方法是基于概率理论，假设样本为1的概率可以用sigmoid函数来表示，然后通过极大似然的方法可以估计出参数的值。支持向量则是基于几何间隔最大的原理，认为存在最大几何间隔的分类为最优分类面。
支持向量只考虑局部边界线附近的点，而逻辑回归考虑全局。从这一点可以得知：线性SVM不直接依赖于数据分布，分类平面不受一类点影响；LR则受所有数据点的影响，如果数据不同类别strongly unbalance，一般需要先对数据做balancing。
在解决非线性问题时，支持向量机采用核函数的机制，而LR通常不采用核函数的方法。这个问题理解起来非常简单。分类模型的结果就是计算决策面，模型训练的过程就是决策面的计算过程。通过上面的第二点不同点可以了解，在计算决策面时，SVM算法里只有少数几个代表支持向量的样本参与了计算，也就是只有少数几个样本需要参与核计算（即kernal machine解的系数是稀疏的）。然而，LR算法里，每个样本点都必须参与决策面的计算过程，也就是说，假设我们在LR里也运用核函数的原理，那么每个样本点都必须参与核计算，这带来的计算复杂度是相当高的。所以，在具体应用时，LR很少运用核函数机制。
线性SVM依赖数据表达的距离测量，所以需要对数据先做normalization，LR不受其影响。（一个基于概率，一个基于距离）
SVM的损失函数就自带正则项，这就是问什么SVM是结构风险最小化算法的原因。而LR必须在损失函数上添加正则项下式是SVM的损失函数
$L (ω, b, α) = \frac{1}{2} {‖ ω ‖}^{2} - \sum_{i = 1}^{n} α_{i} (y_{i} (ω^{T} x_{i} + b) - 1)$ $L(\omega , b, \alpha) = \frac{1}{2}\left \| \omega \right \|^2 - \sum _{i=1}^n\alpha _i(y_i(\omega ^Tx_i+b)-1)$

特征缩放（数据标准化）（概率模型不需要）

特征缩放技术是指面对多维特征时，将特征数据标准化到一个特定的范围，保证这些特征具有相近的尺度，将其进行归一化，这将帮助梯度下降法反向传播时更快的收敛。

min-max标准化（Min-Max Normalization）（它把原始数据映射到[0-1]之间）

x = \frac{x - m a x}{m a x - m i n}

$x=\frac{x-max}{max-min}$

0均值标准化（z-score标准化）（去均值除以标准差）

x = \frac{x - μ}{σ}

$x = \frac{x-\mu}{\sigma}$

两种方法的适用场景

在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围
在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，第二种方法(Z-score standardization)表现更好。

特征工程一般如何做

特征工程的目的是获取更好的训练数据，把原始数据转变成特征。从数学的角度来看，特征工程就是人工的去设计输入变量X。主要分为三个步骤：1、特征构建；2、特征提取；3、特征选择

1、特征构建
特征构建是指从原始数据中人工的找出一些具有物理意义的特征。需要花时间去观察原始数据，思考问题的潜在形式和数据结构，对数据敏感性和机器学习实战经验能帮助特征构建。
2、特征提取

PCA(Principal component analysis, 主成分分析)
LDA(Linear Discriminant Analysis, 线性判别分析)
ICA(Independent component analysis, 独立成分分析)

3、特征选择
从给定的特征集合中选择出相关特征子集的过程，称为特征选择。

原因：

维数灾难
去除不相关的特征往往会降低学习任务的难度

主要选择方式：

过滤式选择（先选择特征再训练）
包裹式选择（根据要使用的学习器选择特征、期间进行多次训练、开销大，但是效果优于前者）
嵌入式选择与L1正则化（不同于前两个将学习器的训练和特征选择分开，该方法边训练边选择）

解释什么是降维，在哪里会用到降维，它的好处是什么？

降维是指通过保留一些比较重要的特征，去除一些冗余的特征，减少数据特征的维度。而特征的重要性取决于该特征能够表达多少数据集的信息，也取决于使用什么方法进行降维。使用哪种降维方法则是通过反复的试验和每种方法在该数据集上的效果。一般情况会先使用线性降维方法再使用非线性的降维方法。

好处：

节省存储空间
加速计算速度，维度越少，计算量越少，并且能够使用那些不适合高维度的算法
去除一些冗余特征，比如降维后使得数据不会即保存平方米又保存平方英里的表示地形大小的特征
将数据维度降到2维或者3维使之能可视化，便于观察和挖掘信息
特征太多或者太复杂会使得模型过拟合

PCA和LDA

两者都可用于将维，区别是PCA是一种无监督的映射方法，而LDA是有监督的映射方法。

PCA将整组数据整体映射到最方便表示这组数据的坐标轴上，映射时没有利用任何数据内部的分类信息。用主要的特征代替其他相关的非主要的特征，所有特征之间的相关度越高越好。经过PCA处理后，整组数据在表示上更加方便(降低了维数并将信息损失降到最低)，但在分类上也许会变得更加困难。

LDA主要求一个映射，使得类别内的点距离越近越好（集中），类别间的点越远越好。其简要原理就是求取一个线性变换，使得不同类数据间的协方差矩阵和同一类数据内部的各个数据间协方差矩阵之比的达到最大。

如何处理缺失值

处理方法有两种，一种是删除整行或者整列的数据，另一种则是使用其他值去填充。

如何解决过拟合

获取更多的数据，数据越多越接近整体（数据集扩增）
使用简单的模型
训练时间，提前结束训练（Early stopping）（训练集误差不停下降，但是测试数据是先下降后上升，选择哪个临界点）
正则化（限制权值）
神经网络可以采用Dropout

ROC和AUC

AUC(Area Under ROC Curve)，即在ROC曲线下的面积。ROC曲线就是根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要的量，一个是真正例率，一个是假正例率(假例中预测为正例的比率)，真正例率(正例中预测为正例的比率)作为纵轴，假正例率作为横轴，作图，就得到ROC曲线。

解释K-means原理

K-means算法针对聚类所得的簇划分最小化平方误差。找到最优解需考察样本集D所有可能的簇划分，这是一个NP难问题。k-means采用了贪心策略，通过迭代优化来近似求解。

1、从D中随机选择k个样本作为初始均值向量，类别k是人为设定的。
2、计算各个样本与各个均值向量的距离，根据距离最近的均值向量确定样本的簇标记，并化入相应的簇。
3、更新均值向量，如果新的均值向量不等于之前的均值向量，则更新均值向量，否则保持不变。
4、重复2~3，直到当前均值向量均未更新，得到最终的簇划分。

DBSCAN

全称为“Density-Based Spatial Clustering of Applications with Noise”，属于密度聚类。此类算法假设聚类结构能通过样本分布的紧密程度确定。

定义以下几个概念：

$\epsilon$ -邻域：对 $x_{j} \in D$ 其 $\epsilon$ 邻域包含样本集D中与 $x_{j}$ 的距离不大于 $\epsilon$ 的样本，即 $N_\epsilon (x_{j}) = \{x_{i}\in D | dist(x_{i}, x_{j})\leqslant \epsilon\}$
核心对象：若 $x_{j}$ 的 $\epsilon$ -邻域中至少包含MinPts个样本，则 $x_{j}$ 是一个核心对象。
密度直达：若 $x_{j}$ 位于 $x_{i}$ 的 $\epsilon$ -邻域中，且 $x_{i}$ 是核心对象，则称 $x_{j}$ 由 $x_{i}$ 密度直达。
密度可达：对 $x_{i}$ 与 $x_{j}$ ，若存在样本序列 $p_{1},p_{2},…,p_{n}$ ，其中 $p_{1} = x_{i}$ ， $p_{1} = x_{i}$ 且 $p_{i+1}$ 由 $p_{i}$ 密度直达，则称 $x_{j}$ 由 $x_{i}$ 密度可达。

簇”定义为：由密度可达关系导出的最大密度相连样本集合。

判别模拟和生成模型

判别模型会生成一个表示P(Y|X)的判别函数（或预测模型），而生成模型先计算联合概率p(Y,X)然后通过贝叶斯公式转化为条件概率。简单来说，在计算判别模型时，不会计算联合概率，而在计算生成模型时，必须先计算联合概率。或者这样理解：生成算法尝试去找到底这个数据是怎么生成的（产生的），然后再对一个信号进行分类。基于你的生成假设，那么哪个类别最有可能产生这个信号，这个信号就属于那个类别。判别模型不关心数据是怎么生成的，它只关心信号之间的差别，然后用差别来简单对给定的一个信号进行分类。常见的判别模型有：KNN、SVM、LR，条件随机场（待定），常见的生成模型有：朴素贝叶斯，隐马尔可夫模型。当然，这也是为什么很少有人问你朴素贝叶斯和LR以及朴素贝叶斯和SVM有什么区别。
简单的说：判别模型是直接学习p(y|x)，或者直接从特征空间学习类别标签；生成模型是对类别模型进行学习，实际上，生成模型是对联合概率分布p(x,y)=p(x|y)p(y)进行学习的。

L1、L2正则化的区别

相同点：都用于避免过拟合
不同点：L1可以让一部分特征的系数缩小到0，从而间接实现特征选择。所以L1适用于特征之间有关联的情况，并且可以用来做特征选择。 L2让所有特征的系数都缩小，但是不会减为0，它会使优化求解稳定快速。所以L2适用于特征之间没有关联的情况。
对于L1正则化：当w为正时，更新后的w变小。当w为负时，更新后的w变大——因此它的效果就是让w往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。
另外，上面没有提到一个问题，当w为0时怎么办？当w等于0时，|W|是不可导的，所以我们只能按照原始的未经正则化的方法去更新w，这就相当于去掉η*λ*sgn(w)/n这一项，所以我们可以规定sgn(0)=0，这样就把w=0的情况也统一进来了。（在编程的时候，令sgn(0)=0,sgn(w>0)=1,sgn(w<0)=-1）

什么是梯度消散和梯度爆炸

如果网络使用sigmod激活函数，误差在向前传递的时候，经过sigmod单元，需要乘sigmod的梯度，而sigmod的梯度最大是0.25，因此越向前传递，误差就越小了，这就是梯度消散，但是梯度爆炸是什么？注意误差在经过全连接或者卷积层时，也要乘以权重w，如果w都比较大，大过sigmod造成的减小，这样越往前误差就越来越大，梯度爆炸了！

对于BN层的理解

Batchnorm是深度学习发展以来提出的最重要的成果之一了，目前已经被广泛的应用到了各大网络中，具有加速网络收敛速度，提升训练稳定性的效果，Batchnorm本质上是解决反向传播过程中的梯度问题。batchnorm全名是batch normalization，简称BN，即批规范化，通过规范化操作将输出信号x规范化保证网络的稳定性。
1、防止梯度消失，加快训练速度
BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正太分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。
通俗来说，随着网络的训练，出了输入数据，中间数据的的分布在不断的发生变化，这就给网络的学习带来了一定的困难，此现象称之为Internal Covariate Shift。BN层即将每个隐层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。
2、防止过拟合
大概意思是：在训练中，BN的使用使得一个mini-batch中的所有样本都被关联在了一起，因此网络不会从某一个训练样本中生成确定的结果。
这句话什么意思呢？意思就是同样一个样本的输出不再仅仅取决于样本本身，也取决于跟这个样本属于同一个mini-batch的其它样本。同一个样本跟不同的样本组成一个mini-batch，它们的输出是不同的（仅限于训练阶段，在inference阶段是没有这种情况的）。我把这个理解成一种数据增强：同样一个样本在超平面上被拉扯，每次拉扯的方向的大小均有不同。不同于数据增强的是，这种拉扯是贯穿数据流过神经网络的整个过程的，意味着神经网络每一层的输入都被数据增强处理了。

为什么正则化可以防止过拟合

正则化可以是权值衰减，为什么w“变小”可以防止overfitting？一个所谓“显而易见”的解释就是：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好（这个法则也叫做奥卡姆剃刀）
另外一种理解：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

Random forest 原理

Random forest是Bagging的一个扩展变体。以决策树为基学习器。在决策树的训练过程中引入了随机属性选择。

1. 假如m个训练样本，自助采样一个训练集
2. 当每个样本有d个属性，在决策树的每个节点需要分裂时，随机从这d个属性中选取出k个属性，满足条件k << d。推荐值 $k = log_{2}d$ ，再从这个k个属性值中采取某种策略（比如说信息增益）来选择一个属性作为该节点的分裂属性。
3. 决策树形成过程的每个节点都要按照步骤2来分裂，一直到不能够再分裂位置。整个决策树形成过程没有剪枝。
4. 按照步骤1~3建立大量的决策树，再对训练出来的弱决策树进行集成，这样就构成了随机森林。

xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度？但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高。

一句话的解释，来自周志华老师的机器学习教科书（机器学习-周志华）：Boosting主要关注降低偏差，因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成；Bagging主要关注降低方差，因此它在不剪枝的决策树、神经网络等学习器上效用更为明显。
Bagging算法是这样做的：每个分类器都随机从原样本中做有放回的采样，然后分别在这些采样后的样本上训练分类器，然后再把这些分类器组合起来。简单的多数投票一般就可以。其代表算法是随机森林。Boosting的意思是这样，他通过迭代地训练一系列的分类器，每个分类器采用的样本分布都和上一轮的学习结果有关。其代表算法是AdaBoost, GBDT。
对于Bagging算法来说，由于我们会并行地训练很多不同的分类器的目的就是降低这个方差(variance) ,因为采用了相互独立的基分类器多了以后，h的值自然就会靠近.所以对于每个基分类器来说，目标就是如何降低这个偏差（bias),所以我们会采用深度很深甚至不剪枝的决策树。
对于Boosting来说，每一步我们都会在上一轮的基础上更加拟合原数据，所以可以保证偏差（bias）,所以对于每个基分类器来说，问题就在于如何选择variance更小的分类器，即更简单的分类器，所以我们选择了深度很浅的决策树。

集成学习介绍（boosting、bagging、stacking原理）

集成学习器通过构建并结合多个学习器（弱学习器）来完成学习任务，常可获得比单一学习器显著优越的泛化性能。
主要集成学习方法可以分为两大类：

个体学习器之间存在强依赖关系，必须串行生成序列化方法。(Boosting)
体学习器间不存在强依赖关系，可同时生成的并行化算法。(Bagging和Random Forest)

Boosting

先从初始训练集训练出一个基学习器，再根据基学习器的表现对样本分布进行调整，使得先前基学习做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此反复进行，直到基学习器数目达到事先指定的值T，最终将这个T个基学习器进行加权组合。

Bagging

基于自助采样法（booststrap sampling）。
采样出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，在将这些基学习器进行结合。结合时分类任务常使用简单投票法，回归任务使用简单平均法。

Stacking

Stacking其实是一种结合策略（本身也是一种著名的集成学习算法），即基学习器的结合策略。把个体学习器成为初级学习器，用于结合的学习器称为次级学习器或元学习器。
Stacking先从初始数据集训练出初级学习器，然后生成一个新的数据集用于训练次级学习器，初级学习器的输出被当做样例特征，而初始样本的标记仍被当作样例标记。
使用交叉验证或者留一法，用初级学习器为使用的样本来产生次级学习器的训练样本。
次级学习算法一般使用多响应线性回归效果较好。

随机梯度下降法和牛顿法的区别和定义

随机梯度下降是使用的一阶导，实现简单。当目标函数是凸函数时，梯度下降法的解是全局最优解，一般情况下，其解不保证是全局最优解。收敛速度未必是很快的。
牛顿法和拟牛顿法有收敛速度快的优点。需要求解目标函数的海赛矩阵的逆矩阵，计算比较复杂。拟牛顿法通过正定矩阵近似海赛矩阵的逆矩阵或海赛矩阵，简化了这一计算过程。主要是使用二阶导数。

常见的激活函数有哪些

加入激活函数是用来加入非线性因素的，解决线性模型所不能解决的问题。
(1) sigmoid
函数表达式： $f(x) = \frac {1}{1 + e^{-x}}$
存在梯度消失、不是关于原点对称、计算exp比较耗时等问题
(2) tanh
函数表达式： $f(x) =\frac {e^{x} - e^{-x}}{e^{x} + e^{-x}} =\frac{1 - e^{-2x}}{1 + e^{-2x}}$
收敛速度比sigmoid快
解决了原点对称问题，但是梯度弥散（梯度消失）没有解决
(3)ReLU
函数表达式： $f(x) = max(0, x)$
能够有效缓解梯度消失问题。
提供神经网络的稀疏表达能力。
ReLU在 $x < 0$ 时，权重无法更新，会导致“神经元死亡”。
(4) Leaky-ReLu
函数表达式：

f (x) = a x (x < 0)

$f(x) = ax (x < 0)$

f (x) = x (x >= 0)

$f(x) = x (x >= 0)$
(5) PReLU(parametric ReLU)
对于Leaky ReLU中的

α

$\alpha$ 作为一个参数进行训练。

如何选择
首先尝试ReLU