深度学习常见问题汇总。

1. 为什么输入数据需要归一化(Normalized Data)?

           归一化后有什么好处呢?原因在于神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低;另外一方面,一旦每批训练数据的分布各不相同(batch 梯度下降),那么网络就要在每次迭代都去学习适应不同的分布,这样将会大大降低网络的训练速度,这也正是为什么我们需要对数据都要做一个归一化预处理的原因。

          对于深度网络的训练是一个复杂的过程,只要网络的前面几层发生微小的改变,那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变,那么这一层网络就需要去适应学习这个新的数据分布,所以如果训练过程中,训练数据的分布一直在发生变化,那么将会影响网络的训练速度。

2. correlationfilter-based tracking(CFTs)主要可以通过以下几个方面提高:

1)引入更好的训练方案(introducing better training schemes)

2)提取强大的特征(extracting powerful features)

3)减轻尺度变化的影响(relieving scaling issue)

4)结合基于部分的追踪策略(applying part-based tracking atrategy),即相对于对目标整体识别,可以将目标分成好几个部分,对各个部分进行识别

5)结合long-term的跟踪(cooperation with long-term tracking)

3. RELU 和 PRELU,LRELU,RRELU之间的区别。

RELU的优点是可以防止梯度消失和梯度爆炸问题,缺点是容易造成神经元死亡问题。

PRELU,LRELU,RRELU可以缓解RELU的神经元死亡问题。缺点:我们的网络学习归根是学习一个稀疏性问题,用少量的样本来表示大部分的样本,PRELU,LRELU,RRELU虽然可以缓解神经元死亡问题但是会造成网络稀疏不够,没有RELU的稀疏性好。RELU虽然会造成神经元死亡,但是RELU得网络稀疏性要好很多。

4.最大似然估计与深度学习的关系

最大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

那么最大似然估计(交叉熵)与深度神经网络有什么关系呢?如果你写过TensorFlow的程序的话,你会注意到程序的最后往往会加上一个Softmax函数。Softmax函数一个重要的性质就是把输出归一化转换到每一个对应分类的概率。一旦转换为概率之后,我们就可以用到最大似然估计(交叉熵)的方式来求得最大似然或者最小交叉熵。

5.网络中过拟合解决办法有哪些?

1)重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。

2)增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。

3)采用正则化方法。正则化方法包括L1正则和L2正则,而正则一般是在目标函数之后加上对于的范数。但是在机器学习中一般使用L2正则,下面看具体的原因。

4)采用dropout方法。这个方法在神经网络里面很常用。

5)调整网络结构

猜你喜欢

转载自blog.csdn.net/donkey_1993/article/details/81872511