ネットワークの深さの深い学習モデルのパフォーマンスへの影響は何ですか?

オリジナル住所:https://www.jianshu.com/p/72481d794a6b

みなさん、こんにちは、これはコラムで「AIは領土、当惑」リレーショナルモデルとモデルのパフォーマンスの深さについては、第二の記事を。

中年の領域に、それはこの状態で、独自の独立した思考を必要とし、移動が始まったマスターすることです。研究は模倣からのものであれば、創造的なプロセスに、追従するので、この段階では、模倣と創造の段階に入って、ステージ全体でジャンプを、従うべきです。このレルムの当初から、答えを持っていない可能性があり、問題の物語、より多くの私たちが一緒に仕事は思考を刺激することです。

著者&エディタ|三つの言葉があります。

深学習モデルは、十分なネットワークの深さが重要な役割を果たしてきた、さまざまなタスクで成功を収めた理由は、それがより深くモデル、より良好なパフォーマンスではないでしょうか?

 

1なぜ、パフォーマンスを向上させる深めることができます

一般的に多数決関数ならばということを意味し、「私たちは深いアーキテクチャでコンパクトに表すことができ、ほとんどの機能がコンパクトな浅いアーキテクチャで表すことができないと主張し、」BengioとLeCun 2017品[1]、それは読み込み、この問題を解決するためにちょうど右の深い構造が、同じことを解決するために軽量コンパクトな構造を使用することは不可能です。

より複雑な問題を解決するために、または深さや幅の増加を高めるために、コストの幅を大きくすることは、多くの場合、深さよりもはるかに高いです。

Ronen氏Eldanら小さなレイヤ3ネットワークを設計することができ、それは任意の機能は、レイヤ2ネットワークによって表すことができないと述べました。要するに、特定の深さが必要です。

だから、モデルの深化と、最後にそれの利点は何ですか?

1.1、より優れた特性を当てはめます。

メインモジュールは、深さが標準の非線形変換モジュールであり、ネットワーク構造、プールされ、活性化、学習畳み込みである今です。深いモデル、非線形手段より良いコミュニケーションスキル、あなたは、より複雑な機能入力を収めることができ、より複雑な変換を、学ぶことができます。

図の比較は以下を参照してください。[2]、実線が一層のみ、モデル20個のニューロンであり、破線は、モデルの各レイヤーの二層、10個のニューロンです。図からわかるように、二層のネットワークは、より良いフィットする能力を持って、この機能はまた、より深いネットワークに適用されます。

 
 

1.2、ネットワーク物事にもっと簡単な操作を行うためのより深い各層。

職務うち各ネットワーク層キャリー、我々はzfnetデコンボリューションから重みを学ぶために、各ネットワーク層古典的なネットワークを参照してください。

エッジを学ぶ第一層は、第二層は、単純な形状を学習し、第3の層は、ネットワークのより深い層はより複雑な表現を学ぶことができ、ターゲットの形状を学習し始めます。一層のみが、それは非常に複雑で学ぶことを意味し、変換した場合、それを行うのは困難です。

 
 

 

2どのようにモデルのパフォーマンスと深さの定量的評価

上記は、層によってスキルや層の学習のより強力な機能の二つの主な利点を深めるためのネットワークです。

我々はディープWebを使用しますので、理論的にはレイヤ2ネットワークは、実際の使用では現実的ではない、大きな幅を、任意の有界連続関数をフィットしますが、必要とすることができます。

私たちは、モデルがより良く、が、どのように能力と奥行きモデルとの直接的な関係を測定するための定量的指標を使用する方法があることを知っている2つのスキーム直接および間接的な方法

直接法は、ネットワーク容量の指標理論解析の定義であり、間接的な方法は、タスク等の精度指標としてのシリーズを比較することです。

2.1、直接法

このように評価が、深層ウェブには適用されません早けれ浅いネットワーク、関数を近似することにより調査し、ブール回路を比較する能力、ネットワークのVC寸法。

現在、ネットワークパフォーマンスの直接的な評価は、範囲(直線領域)線形良い研究アイデアです。完璧にフィットする曲線は、(地域線形)線形区間の無限の数を必要とする場合、ニューラルネットワークの発現は、区分的線形関数とみなすことができます。より柔軟なネットワークを示すより線形範囲、。

 
 

それまでにヨシュア・ベンジオ、直線範囲のモデル番号の柔軟性を測定します。より深いネットワーク、入力空間は指数浅いネットワークを折るする能力で、より多くの線形応答領域に分けることができます。

入力のための最大の数であるN 0、N-出力、単一の隠れ層KNネットワークを持っています。

 
 

对于拥有同样多的参数,n0个输入,n个输出,k个隐藏层,每一层n个节点的多层网络,其最大数量为:

 
 

因为n0通常很小,所以多层网络的数量是单层的指数倍(体现在k上),计算方法是通过计算几何学来完成,大家可以参考论文[3]。

除此之外还有一些其他的研究思路,比如monica binachini[4]等使用的betti number,Maithra Raghu等提出的trajectory length[5]。

虽然在工程实践中这些指标没有多少意义甚至不一定有效,但是为我们理解深度和模型性能的关系提供了理论指导。

2.2、间接法

间接法就是展现实验结果了,网络的加深可以提升模型的性能,这几乎在所有的经典网络上都可以印证。比较不同的模型可能不够公平,那就从同一个系列的模型来再次感受一下,看看VGG系列模型,ResNet系列模型,结果都是从论文中获取。

 
 
 
 

在一定的范围内,网络越深,性能的确越好。

 

3 加深就一定更好吗?

前面说到加深在一定程度上可以提升模型性能,但是未必就是网络越深越越好,我们从性能提升和优化两个方面来看。

3.1、加深带来的优化问题

ResNet为什么这么成功,就是因为它使得深层神经网络的训练成为可行。虽然好的初始化,BN层等技术也有助于更深层网络的训练,但是很少能突破30层。

VGGNet19层,GoogleNet22层,MobileNet28层,经典的网络超过30层的也就是ResNet系列常见的ResNet50,ResNet152了。虽然这跟后面ImageNet比赛的落幕,大家开始追求更加高效实用的模型有关系,另一方面也是训练的问题。

深层网络带来的梯度不稳定,网络退化的问题始终都是存在的,可以缓解,没法消除。这就有可能出现网络加深,性能反而开始下降。

3.2、网络加深带来的饱和

网络的深度不是越深越好,下面我们通过几个实验来证明就是了。公开论文中使用的ImageNet等数据集研究者已经做过很多实验了,我们另外选了两个数据集和两个模型。

第一个数据集是GHIM数据集,第二个数据集是从Place20中选择了20个类别,可见两者一个比较简单,一个比较困难。

第一个模型就是简单的卷积+激活的模型,第二个就是mobilenet模型。

首先我们看一下第一个模型的基准结构,包含5层卷积和一个全连接层, 因此我们称其为allconv6吧,表示深度为6的一个卷积网络。

 
 

接下来我们试验各种配置,从深度为5到深度为8,下面是每一个网络层的stride和通道数的配置。

 
 

我们看结果,优化都是采用了同一套参数配置,而且经过了调优,具体细节篇幅问题就不多说了。

 
 

看的出来网络加深性能并未下降,但是也没有多少提升了。allconv5的性能明显更差,深度肯定是其中的一个因素。

我们还可以给所有的卷积层后添加BN层做个试验,结果如下,从allconv7_1和allconv8_1的性能相当且明显优于allconv6可以得出与刚才同样的结论。

 
 

那么,对于更加复杂的数据集,表现又是如何呢?下面看在place20上的结果,更加清晰了。

 
 

allconv5,allconv6结果明显比allconv7,allconv8差,而allconv7和allconv8性能相当。所以从allconv这个系列的网络结构来看,随着深度增加到allconv7,之后再简单增加深度就难以提升了。

接下来我们再看一下不同深度的mobilenet在这两个数据集上的表现,原始的mobilenet是28层的结构。

不同深度的MobileNet在GHIM数据集的结果如下:

 
 

看得出来当模型到16层左右后,基本就饱和了。

不同深度的MobileNet在Place20数据集的结果如下:

 
 

与GHIM的结果相比,深度带来的提升更加明显一些,不过也渐趋饱和。

这是必然存在的问题,哪有一直加深一直提升的道理,只是如何去把握这个深度,尚且无法定论,只能依靠更多的实验了。

除此之外,模型加深还可能出现的一些问题是导致某些浅层的学习能力下降,限制了深层网络的学习,这也是跳层连接等结构能够发挥作用的很重要的因素。

关于网络深度对模型性能的影响,这次就先说这么多。

[1] Bengio Y, LeCun Y. Scaling learning algorithms towards AI[J]. Large-scale kernel machines, 2007, 34(5): 1-41.

[2] Montufar G F, Pascanu R, Cho K, et al. On the number of linear regions of deep neural networks[C]//Advances in neural information processing systems. 2014: 2924-2932.

[3] Pascanu R, Montufar G, Bengio Y. On the number of response regions of deep feed forward networks with piece-wise linear activations[J]. arXiv preprint arXiv:1312.6098, 2013.

[4] Bianchini M, Scarselli F. On the complexity of neural network classifiers: A comparison between shallow and deep architectures[J]. IEEE transactions on neural networks and learning systems, 2014, 25(8): 1553-1565.

[5]ラグーM、プールB、Kleinberg J、ら。深いニューラルネットワークの表現力には[C]機械学習、ボリューム70 JMLRの第34回国際会議の議事//。ORG、2017:2847年から2854年。

 

概要

学習の深さの名前は「深い」取った、モデルの深さの重要性は見えています。我々はモデルのアップグレードの深さの原則をカバーし、この時間は、定量的にモデルのパフォーマンスの深さの寄与を評価し、発生したネットワークの問題を強化する方法を、もたらします。



著者:3つのAIがあり
ます。https:リンクは//www.jianshu.com/p/72481d794a6b
出典:ジェーンの本が
著者によって著作権で保護されています。著者は認可商業転載してください接触、非商用の転載は、ソースを明記してください。

おすすめ

転載: www.cnblogs.com/lzhu/p/11856350.html