概要神経のアーキテクチャを検索

オリジナル紙(2019):https://arxiv.org/abs/1905.01392

強化学習と進化的アルゴリズム共通のアーキテクチャに基づいて、共通の探索空間と最適化アルゴリズムの原理を話し合います

また、マルチターゲットアーキテクチャ検索、自動データ拡張、最適化、および新たな研究が活性化関数の検索で、制約を説明します。

まず、既存の方法

1):強化学習アルゴリズムは、優れたアーキテクチャを見つけることができ、神経進化方法はまた、同様の結果を得ることができます。しかし、2つの検索方法は、数千時間を実行するためにGPUを使用する必要があります。
2):.カイら( 2018a)は、単純なアーキテクチャから検索を開始するために提案徐々に検索の幅と深さを保持する機能を増大させることによって操作します
3):.ファムら( 2018) 提案されたすべてのアーキテクチャを含むパラメータ探索空間によって構築アーキテクチャ各時間ステップのアルゴリズムで、サンプリングされ、この大規模なアーキテクチャの小さな部分のための訓練。トレーニングが完了した後、得られたアーキテクチャを使用すると、単一のアーキテクチャとほぼ同じレベルのトレーニングに検索できるように作業負荷を軽減、サンプリングウェイトトレーニングを共有することができます。今より人気
4)。Zophら、2018 .. 探索空間のデザインは、神経アーキテクチャのための検索の他の重要な一部を構成しています。加えて、検索処理を高速化するが、それはまたなり、検索時間に影響し、検索で得られた溶液の品質を以前に注文アーキテクチャを検索する主に検索の神経のアーキテクチャ、設計空間を働きます。手作りのアーキテクチャブランチは、伝統的なネットワークのパフォーマンスを超えてしまったと。しかし、適切な探索空間を作った後だけですぐにリリースした、とスペースは、この領域での規範となっています。
5):これらの取り組みの進捗状況が、研究者は検索の神経のアーキテクチャの視野を広げ、検索は、神経アーキテクチャを望むことができる、検索時間を短縮するために一般化アーキテクチャを発見したエラーを減らしますすることができ、同時に複数の目的関数を扱う方法は、視野に入ってくる開始します。これは、この点で注目すべきは、作業指示などがあり、モデルは、モバイルデバイス上に配備されモデルパラメータの数を制限しようとする(タンら、2018 ;. Kimら、2017) 、または他の部分。
6):また、アーキテクチャが開発された検索技術は、他の関連するコンポーネントの高度な自動化深さの調査に拡張されました。例えば、検索機能が活性化される(ラマチャンドランら、2018)および適切なデータ・エンハンスメント(Cubukら。、2018a)

現在、深い学習自動化された検索方向の形で実装された神経アーキテクチャは、機械学習の最速発展途上地域の一つです。週刊arXiv.orghttp://arxiv.org/は、主要な会議や出版物のいくつかの興味深い仕事を持つことになります)ので、迷子に簡単です。

探索空間の第二に、神経のアーキテクチャ

ニューラルアーキテクチャ探索空間は、神経アーキテクチャの部分空間の一般的な定義です。どちらの操作スペース限られているが、アーキテクチャ上の特定の制約にも適用することができます。次に、使用して探索空間はを参照する実行可能解の神経アーキテクチャ探索法のセット

2.1グローバル検索スペース

操作の面で自由の世界的な探索空間高度(インスタンス)の例。私たちは、選択した構造で許可される自由スキーマ定義を制限アーキテクチャテンプレートを、想定することができます。このテンプレートは、一般的にネットワークマップの特定の側面を修復するために使用されます。
図1は、サンプルテンプレート拘束探索空間のアーキテクチャを示す
ここに画像を挿入説明
動作のみダークブルー、テンプレート・アーキテクチャとの間の(c)は、探索空間の(a)の順、(b)および(スキップ)をジャンプ同じ:図1:グローバルサーチスペース接続は修復されません。

タンら(2018)は、他のタスクは、ニューラルネットワークは、モバイル・デバイス、モデルがあってもよい上に展開することができる見つけることで、正確な、推論時間及びパラメータの数効率等の観点の複数を実行します。彼らは、この目的のため、適切な探索空間のために設計されているアーキテクチャは、階層表現を持つコンポーネントを。
ここに画像を挿入説明
図2 :.タンら(2018 ) の異なる部分にアーキテクチャを提案しました。各部分が有するIは独自のパターン(青色計算)、このセクションでは、n_i回繰り返しのf_iフィルタを有しているであろう。

2.2ベースユニット(セルベースの)検索空間

cell-based 搜索空间建立在一个观察结果之上,即许多有效的手工架构都基于重复的固定结构。这样的架构一般是较小的图堆叠起来形成的较大的架构。在文献中,一般将这些重复结构称为单元(cell 或 unit)或块(block)。在本文中用 cell 指代这样的结构。

1):在 cell-based 搜索空间中,网络是通过在模板定义的、预先指定好的排列中重复 cell 结构来构建的。如图 3 所示,cell 一般是一个小的有向无环图。
ここに画像を挿入説明
图 3:NASNet 搜索空间实例的结构。n 个正常单元(normal cell)后面跟着一个缩减单元(reduction cell)。这样的序列会重复几次,缩减单元也可能会重复。

2):图 4 展示了 cell 结构可视化的例子。
ここに画像を挿入説明
图 4:以 NASNet-A 架构的缩减单元(Zoph et al.,2018)为例,展示一个 cell 在 NASNet 搜索空间中是什么样子。可以将 block 用做其他 block(如 block 1 和 block 3)的输入,未使用的 block 连在一起成为 cell 的输出。

3):已经可以用 cell-based 设计范式来定义适用于移动设备的搜索空间了。Dong et al.(2018)提出了一个专门满足这类需求(比如参数较少的目标和更少的推理时间)的搜索空间。图5所示:
ここに画像を挿入説明
图 5:Dong et al.(2018)用的移动搜索空间。包括 cell 在内的整个网络都是密集连接的。

2.3 全局搜索空间 vs. cell-based 搜索空间

cell-based 搜索空间,尤其是 NASNet 搜索空间,是开发新方法时最常用的选择。大多数研究这两个搜索空间的工作都提供了经验证据支持这一选择,这些经验证据表明 cell-based 搜索空间可以得到更好的结果。

无论如何,cell-based 搜索空间得益于发现的架构可以很容易地跨数据集迁移。此外,通过改变过滤器和单元的数量,几乎可以任意改变架构的复杂性

通常,全局搜索空间中的架构不会显示上面说的所有这些属性,但是某些情况也可能会从中受益。例如,可以改变过滤器的数量自然地修改架构,但要想将发现的架构转移到输入结构不同的新数据集或深化体系结构并不是一件容易的事。

三、优化方法

响应函数 f 的优化是一个全局黑箱优化问题。接下来将会讨论几种基于强化学习、进化算法等的优化策略。

3.1 强化学习

强化学习对于顺序决策过程的建模是很有用的,在这个过程中,智能体(agent)和环境交互唯一目标是最大化未来收益
下图 6:强化学习算法的一般框架。
ここに画像を挿入説明
1):时序差分学习(Temporal Difference Learning):像 SARSA、TD-λ 和 Q-learning 这样的方法都试着通过近似最优值函数隐式地找出这种策略。然后根据最优值函数将最优策略定义为贪心策略。最优值函数 v ∗ (s) 和 q ∗ (a, s) 满足 Bellman 最优标准。

2):策略梯度方法(Policy Gradient Methods):RL 中的其他替代方法(统称为策略梯度方法)不适用价值函数,而是直接学习由参数集合 πθ(a|s) 定义的策略。这些方法在不显式参考价值函数的情况下选择动作(action)。

3):基于 Q-Learning 的优化: Baker et al.(2017)是最早提出用基于 RL 的算法进行神经架构搜索的人之一。他们在设计算法时结合了 Q-learning、ε-greedy 和经验回放(Experience replay)。他们方法中的动作是选择要添加到架构中的不同层,以及终止构建架构并将它认定为已经完成的运算

4):基于策略梯度方法的优化基于策略梯度方法的替代方法也已经用在神经架构搜索中了。Zoph 和 Le(2017)是第一个研究这种建模方法的。他们直接针对控制器建模,可以将控制器的预测值视为构建神经架构的动作。
ここに画像を挿入説明
图 7:Zoph 和 Le(2017)用控制器预测一层的结构(图中没有呈现跳跃连接(skip connection)的预测值)。

3.2 进化算法

进化算法(Evolutionary algorithms,EA)是基于种群的黑箱函数全局优化器,它必需的组件有:初始化(initialization)、父代选择(parent selection)、重组(recombination)与变异(mutation)以及新代选择(survivor selection)。
ここに画像を挿入説明
图 8:进化算法的一般框架。

3.3 基于代理模型的优化

顾名思义,基于代理模型的优化器用代理模型 f hat 来近似响应函数 f。就神经架构搜索而言,这可以近似响应不在训练步消耗时间且能提升整个搜索过程效率的架构。将该代理模型建模为机器学习模型,在元数据集上进行训练,这个元数据集中包含架构描述以及对应的响应函数值。

Luo et al.(2018)用了一种有趣的方式。他们共同学习了用于架构表征的自动编码器和代理模型,该代理模型用自动编码器提供的连续编码,即架构代码作为输入(图 9)。

一个关键的区别在于,他们的搜索算法使用代理模型,通过对架构代码执行梯度步骤来采样新的架构。
ここに画像を挿入説明
图 9:Luo et al.(2018)提出结合自动编码器和代理模型。这个模型通过共同学习实现了 α≈α ̂ 和 f(α)≈f ̂(α)

3.4 one-shot 架构搜索

将在搜索过程中只训练一个单一神经网络(single neural network)的架构搜索方法定义为 one-shot。然后该神经网络在整个搜索空间中推导出一个架构,将其作为优化问题的解决方案。大多数用 one-shot 方法考虑的架构都是基于过参数化网络的

这类方法的优点是搜索工作量相对较低——只比搜索空间中一个架构的训练成本略高一点。正如我们后面要讨论的,这个方法可以和之前讨论过的许多优化方法结合在一起。

共有の量(重量共有):.ファムららの検索(2018)部分空間NASNet検索の空間(2.2を参照)、および操作パラメータ探索空間によってネットワーク全体をカバーします。
ここに画像を挿入説明
左::一定の深さの一部畳み込み神経構造図の10。図は、(例えば、4,8)が行われ、異なるサイズを示します。深さのコンボリューションの神経構造は任意です。右:シーケンシャルサーチスペースでは例を共有重いウェイトの唯一の二段階の操作です。

検索は、マイクロアーキテクチャができる:Liuら(2018c)は、この方法の最適化のための別の方法を提案した。勾配ベースの最適化方法は、トレーニングセットの損失を最小限に抑えるために、その、モデルパラメータθの学習とテストセットの損失を最小限に抑えます学習の構造パラメータは、β。

ウルトラネットワーク(Hypernetworks):Brockのら( 2018) 提案された使用。ダイナミック超ネットワーク(動的hypernetworks、ハら、 2017)、 変数に応じて条件である(この場合、アーキテクチャに記載されています)もう一つの重要なニューラルネットワークは、ニューラルネットワークの重みを生成します。ネットワーク上で訓練を受けたことは、ネットワーク・アーキテクチャ重いウェイトの様々なを生成することができます。これは、異なるアーキテクチャのスーパーネットワークでソートされ、最終的なアーキテクチャを導出して、最初からトレーニングを開始することができます。この方法はまた、体重を共有するが、スーパーネットワークにおける体重のシェアのほとんどすることができます。

IVの概要

NASNetサーチスペースは、最も人気のある検索スペースです

おすすめ

転載: blog.csdn.net/weixin_44474718/article/details/91129765