論文を集中的に読む: Ansor: Generating High-Performance Tensor Programs for Deep Learning

記事ディレクトリ

1. 概要

高性能のテンソルプログラムは、ディープニューラルネットワークを効率的に実行するための鍵となります。ただし、さまざまなハードウェアプラットフォーム上のさまざまな演算子に対して良好なパフォーマンスのテンソルプログラムを取得するのは非常に困難です。kernel libraries現在、深層学習システムは、パフォーマンスの良いテンソルプログラムを取得するために、カーネルライブラリ ( ) またはハードウェアベンダーが提供するさまざまな検索戦略に依存しています。しかし、これらの方法には 2 つの欠点があります:
(1)プラットフォーム固有に最適化されたコードを開発するには多大なエンジニアリング作業が必要であること、
(2)限られた検索スペースと非効率な検索戦略により、高性能の tensor プログラムの発見が困難であることです。
上記の欠点に基づいて、著者はAnsor深層学習アプリケーションのためのテンソルプログラム生成フレームワークを提案します。既存の検索戦略と比較して、検索空間の階層表現からプログラムをサンプリングすることでより最適な組み合わせを探索する、進化的検索と学習コストモデルを使用してサンプリングされたプログラムを微調整して最適なプログラムを決定する、を使用するAnsorという特徴があります。ディープニューラルネットワークの複数のサブグラフを同時に最適化するタスクスケジューラ。著者らの実験は、Ansor が既存の最先端の手法の検索空間の外で高性能プログラムを見つけることができることを示しています (はい、回、回、回) 。
(1)(hierarchical representation)(optimization combinations)
(2)(evolutionary search)(cost model)(fine-tune)
(3)(task scheduler)
(state-of-the-art，SOAT)Intel CPU3.8ARM CPU2.6NVIDIA GPU1.7

2. はじめに

ディープニューラルネットワーク(DNN)の低遅延実行は、自動運転(autonomous driving)、拡張現実(augmented reality)、言語翻訳(language translation)、その他のアプリケーションAIにおいて重要な役割を果たします。DNN は有向非巡回コンピューティンググラフとして表現でき(directed acyclic graph, DAG)、ノードは演算子 (畳み込み、行列乗算) を表し、有向エッジは演算子間の依存関係を表します。既存の深層学習フレームワークは、(Tensorflow, PyTorch, MXNet)DNN の演算子をベンダー提供のカーネルライブラリにマッピングして、(cuDNN, MKL-DNN)高いパフォーマンスを実現します。ただし、これらのカーネルライブラリは、ハードウェアプラットフォームやオペレーターごとに手動で調整するために多大なエンジニアリング作業を必要とし、ターゲットアクセラレータごとに効率的なオペレーター実装を作成するために必要な大量の手動作業により、新しいオペレーターや特定のアクセラレータの開発とイノベーションが制限されます。。
パフォーマンスの重要性を考慮して、研究者や業界関係者は、テンソル演算子の低レベル実装など、コンパイラ検索DNNベースのテンソルプログラムの自動生成に注目しています。(search-based compilation)演算子または複数の演算子のサブグラフの場合、ユーザーは高級宣言言語で計算を定義する必要があり、その後、コンパイラーがさまざまなハードウェアプラットフォーム用のカスタムプログラムを検索します。

3. 背景

CPUディープラーニングエコシステムは、、GPU、FPGAを含む、急速に多様化するハードウェアプラットフォームを受け入れていますASIC。これらのプラットフォームにデプロイするには、で使用される演算子に高性能のテンソルプログラムを提供するDNN必要があり、必要な演算子のセットには通常、標準の演算子と機械学習の研究者によって発明された新しい演算子が含まれます。これらの演算子を広範囲のハードウェアプラットフォームに効率的に移植できるようにするために、さまざまなコンパイラ技術が登場しました。ユーザーは高レベルの宣言言語を使用して数式に似た形式で計算を定義し、コンパイラーはその定義に基づいて最適化されたテンソルプログラムを生成します。以下の図はテンソル表現言語における行列乗算の計算定義を示しており、ユーザーは主に入力テンソルの形状と出力テンソルの各要素の計算方法を定義する必要があります。DNN(matmul, conv2d)(capsule conv2d, dilated conv2d)
(TVM, Halide, Tensor Comprehensions)TVM

ここに画像の説明を挿入
しかし、高レベルの定義から高性能の tensor プログラムを自動生成することは非常に困難です。ターゲットプラットフォームのアーキテクチャに応じて、コンパイラは、最適化の組み合わせの選択肢 (アンロール構造、アンロールサイズ、ベクトル化、並列化など) で構成される非常に大きく複雑な空間を検索する必要があり、高性能プログラムを見つけるには検索戦略が必要(tile structure)です。包括的な空間を効率的に探索できます。(tile size)(vectorization)(parallelization)

ここに画像の説明を挿入

4. 設計の概要

ここに画像の説明を挿入
Program sampler:Ansor対処しなければならない重要な課題は、特定の計算グラフに対して大規模な検索スペースを生成することです。さまざまな高レベルの構造と低レベルの詳細を備えたさまざまなテンソルプログラムをカバーするために、スケッチとアノテーションのAnsor2 つのレベルの検索スペースを持つ階層表現が利用されます。プログラムの高レベルの構造をスケッチとして定義し、数十億もの低レベルの選択肢 (例: タイルサイズ、並列処理、アンローリングアノテーション) をアノテーションとして定義するこの表記により、高レベルの構造の柔軟な列挙と低レベルの効率的なサンプリングが可能になります。詳細。: ランダムサンプリングプログラムのパフォーマンスは必ずしも良好ではありません。次の課題はプログラムを微調整することです。微調整は、進化的探索と学習されたコストモデルを使用して反復的に実行されます。各反復では、リサンプリングされた新しいプログラムと、以前の反復からの良好なプログラムを初期母集団として使用して進化的探索が開始されます。進化的探索は、突然変異と交差を通じてプログラムを微調整し、アウトオブオーダーの書き換えを実行し、逐次構築の制約に対処します。学習されたコストモデルのクエリは、実際に測定するよりも桁違いに速いため、数千のプログラムを数秒で評価できます。: プログラムサンプリングとパフォーマンス微調整を使用すると、Ansor は計算グラフ用の高性能 tensor プログラムを見つけることができます。直観的には、完全なものを単一の計算グラフとして処理し、その完全なテンソルプログラムを生成すると、潜在的に最高のパフォーマンスを達成できる可能性があります。ただし、検索スペースの不必要な指数関数的な爆発に対処する必要があるため、これは非効率的です。通常、コンパイラーは大きな計算グラフをいくつかの小さなサブグラフに分割しますが、レイヤーごとの構築機能により、この分割によるパフォーマンスへの影響はごくわずかであり、グラフ生成プログラム時に時間リソースをどのように割り当てるかという最後の課題が生じます。 ? のタスクスケジューラは、勾配降下ベースのスケジューリングアルゴリズムを使用して、エンドツーエンドの DNN パフォーマンスを向上させる可能性が高いサブグラフにリソースを割り当てます。(sketch)(annotation)Ansor(tile size)(parallel)(unroll annotations)Ansor
Performance tunerAnsorAnsor
Task schedulerDNNDNNDNN(layer-by-layer)Ansor
Ansor

5. プログラムサンプリング

アルゴリズムが探索する検索スペースによって、見つけられる最適なプログラムが決まります。既存の方法で考慮される検索スペースは、次の要因によって制限されます:
(1)手動列挙(TVM): テンプレートを使用してすべての可能な選択肢を手動で列挙するのは現実的ではないため、既存の手動テンプレートは限られた検索スペースしかヒューリスティックにカバーできません; 積極的な早期プルーニング : 積極的な早期
(2)プルーニング(Halide auto-scheduler)ベース不完全なプログラムを評価すると、検索アルゴリズムが空間内の特定の領域を探索できなくなります。
を解決するには(1)、柔軟な導出ルールのセットを再帰的に適用することで検索空間を自動的に拡張します。
それを避けるために(2)、検索空間内の完全なプログラムをランダムにサンプリングします。
ランダムサンプリングは各サンプリングポイントに等しいチャンスを与えるため、著者が提案した検索アルゴリズムは、最適なプログラムを見つけるためにランダムサンプリングに依存せずに、考慮された空間内のすべてのプログラムを探索できる可能性があります。これは、サンプリングされた各プログラムが後ですべて微調整されるためです。
最上位レベルでは、いくつかの導出ルールを再帰的に適用することによってスケッチが生成されます。最下位レベルでは、完全なプログラムを取得するために、これらのスケッチにランダムに注釈が付けられます。この表現は、何十億もの低レベルの選択肢からいくつかの基本構造を要約し、高レベルの構造の柔軟な列挙と低レベルの詳細の効率的なサンプリングを可能にします。

ここに画像の説明を挿入

5.1 スケッチの生成

上図の最初の列は 2 つの入力例を示しています。入力には 3 つの同等の形式があります。それは、数式、naiveループインデックスの直接展開から得られる対応するプログラム、および対応する計算グラフです(DAG)。

コンピュータープログラミングの分野では、"naive program"通常、プログラムを実装する単純または単純な方法を指します。このような手順では、考えられるすべてのケースが考慮されていない場合や、既存の最適化手法が活用されていない場合があります。"naive"この用語は、経験が浅い、またはコードを書くスキルが低い特定のプログラマを指すのによく使用されます。このような場合、プログラマは、より複雑または効率的な解決策を考慮せずに、何らかの基本的なアルゴリズムまたはデータ構造を使用する可能性があります。このようなプログラムは通常、多くのコンピューティングリソースを消費し、実行が遅くなります。------by ChatGPT

複数のノードを含むスケッチを生成するにはDAG、トポロジ順にすべてのノードを参照し、反復的に構造を構築します。計算量が多く、データを再利用する機会が多い計算ノードの場合は(conv2d, matmul)、基本的なタイリング構造と融合構造をスケッチとして構築します。また、単純な要素ノードの場合は(ReLU, elementwise add)、安全にインライン化できます。新しいノード(キャッシュノード(caching nodes)、レイアウト変換ノード(layout transform nodes))もスケッチ生成中に導入できることに注意してくださいDAG。著者らは、いくつかの基本ルールを再帰的に適用することで、考えられるすべてのスケッチを生成する
導出ベースの列挙法を提案しています。(derivation-based enumeration)このプロシージャはDAG入力として受け取り、スケッチのリストを返します。 $\sigma = (S;i) と$ 定義します。State $p = (S; i)$ ，其中 $S$ DAGは現在のパーツによって生成されたスケッチです $i$ は現在動作しているノードのインデックスであり、DAG 内のノードは出力から入力のトポロジ順に並べ替えられます。導出は、初期naiveプログラムと最後のノード、または初期状態 $\sigma = (naive\ プログラム ;\ the\ last\ ノードのインデックス\)$ とします。各ルールについて、現在の状態が適用条件を満たしている場合、このルールを適用します $\sigma = (S;i)$ 得られる $\sigma \prime= (S\prime;i\prime),\ i\prime < i$ 、そのようなインデックス $i$ (ワーカーノード) $私 = 0$ の場合、状態は終了状態になります。列挙中に、複数のルールを 1 つの状態に適用して、複数の後続の状態を生成できます。また、1 つのルールで複数の可能な後続の状態を生成することもできます。したがって、すべての中間状態を保存するキューを維持し、キューが空になるとプロセスは終了します。 $\sigma .S は$ 終端状態にあります $σ . S は、$ スケッチ生成の最後にスケッチリストを形成します。一般的なサブグラフの場合、スケッチの数はよりも少なくなります10。

// 递归应用几个基本规则来生成所有可能的sketch
// Derivation rule based enumeration
Array<State> out_states;
while (!pnow->empty()) {
    
    
  pnext->clear();
  for (const State& state : *pnow) {
    
    
    int stage_id = cur_stage_id_map[state];

    // Reaches to the terminal stage
    if (stage_id < 0) {
    
    
      out_states.push_back(state);
      continue;
    }

    // Try all derivation rules
    for (const auto& rule : sketch_rules) {
    
    
      auto cond = rule->MeetCondition(*this, state, stage_id);
      if (cond != SketchGenerationRule::ConditionKind::kSkip) {
    
    
        for (const auto& pair : rule->Apply(*this, state, stage_id)) {
    
    
          cur_stage_id_map[pair.first] = pair.second;
          pnext->push_back(pair.first);
        }
        // Skip the rest rules
        if (cond == SketchGenerationRule::ConditionKind::kApplyAndSkipRest) {
    
    
          break;
        }
      }
    }
  }
  std::swap(pnow, pnext);
}
// Conv2d(3, 64, kernel_size=(7, 7), stride=2, padding=1)有3个sketch生成

ここに画像の説明を挿入
Derivation rules: 上の表は、CPUの導出ルールを示しています。著者らは、まず使用される述語の定義を提供し、次に各ルールの機能を説明し、次に計算定義に対して静的分析を実行してこれらの述語の値を取得します。分析は、次の読み取り/書き込みパターンを解析することによって自動的に行われます。数式。上の表を整理してみました。

`Condition`	`Description`
$厳格に制限されています (S 、_____私）$	を意味します $S$ の $i は$ 、およびなど`(element-wise)`の単純な要素ごとの演算子です`element-wise addReLU`
$HA sDATA 再利用 (S 、______私）$	を意味します $S$ の $i$ は計算集約型の`(compute-intensive)`オペレーターであり、オペレーター内でデータを再利用する機会が多数あります`matmul`。`conv2d`
$可使性のある消費者 (S 、_________私）$	を意味します $S$ のコンシューマノード $が1 つだけあります$ $j$ 、ノード $j は$ に融合できます $私$ 、や`matmul + bias_add`など`conv2d + relu`
$より多くの削減を実現 (S 、_______________私）$	を意味します $S$ の $i は$ 空間次元での並列性がほとんどありませんが、`L2`行列のノルムの計算、モーメント $C_{2\times2} の乗算など、次元=A_{2\times512} \cdot B_{512\times2}$

コンピュータープログラミングでは、"inline"通常、コードのコンパイル時に関数呼び出しを関数本体内のコードに直接置き換えるコンパイラ最適化手法を指します。これにより、関数呼び出し時の余分なオーバーヘッドが回避され、コードの実行効率が向上します。
ではC++、キーワードを使用して、関数を関数として扱う"inline"ようにコンパイラに指示できます。プログラム内で関数を使用するメリットは、関数呼び出しのオーバーヘッドが軽減され、プログラムの動作効率が向上することですinline。さらに、関数を使用すると、関数を呼び出すたびに呼び出しサイトに関数のコードが埋め込まれるため、コードの重複が減ります。関数を使用するとプログラムのパフォーマンスを向上させることができますが、すべての関数が関数として適しているわけではないことに注意してください。一般に、小さくて頻繁に呼び出される関数は関数として最適ですが、大きくて複雑な関数は適していません。さらに、関数によってコードのサイズが増加する可能性があるため、コードのサイズとパフォーマンスの間にはトレードオフが存在します。C++inlineinline
inlineinlineinlineinlineinline------by ChatGPT

Rule 1ノードが厳密にインラインでない場合は単純にノードをスキップします。との条件は相互に排他的である
Rule 2ため、常に厳密にインラインノードです。 Rule1Rule2 $私 > 状態1$
Rule 3は、データ再利用可能なノードに対してマルチレベルタイリングを実行するという条件の 1 つを常に満たして導出を続行できますの場合タイル構造をCPU使用しますタイルレベルの空間サイクルが表され、タイルレベルの縮小サイクルが表されます。たとえば、モーメント乗算では $\sum_k A[i,k] \times B[k,j] 】$ "SSRSRS""S"(space loop)"R"(reduction loop) $C (私、 j) = \sum A [私、 k] \times B [k, j]$ 、 $私$ と $j$ はスペースリング、 $k$ は減速リングです。モーメント乗算の"SSRSRS"元の3レベル $(私、 j 、 k)$ 10はレベルループ $(i_0,j_0,i_1,j_1,k_0,i_2) に展開されます$ 。 $、j_2、k_1、i_3、j_3)$ 、ループ順序は乱れませんが、このマルチレベルタイリングはいくつかの並べ替えケースもカバーできます。たとえば、上記のレベルループは、 $k_0,j_2,j_3)$ 10の単純な並べ替えに特化できます。 $(k 、 j 、 j)$ 他のループの長さをに設定することによって1。"SSRSRS"タイリング構造は、すべてとで構成されているため、通常、深層学習における計算量の多い演算子に使用されます。これは(matmul, conv2d, conv3d)、マルチレベルのタイリングを実行するためのものであり、融合コンシューマーも組み込まれています。たとえば、要素ごとのノードをタイルノードに融合でき。はい、現在のデータ再利用可能なノードに融合されたコンシューマがない場合は、キャッシュノードを追加します。たとえば、の最終出力ノードにはコンシューマがないため、デフォルトでは結果がメインメモリに直接書き込まれますが、メモリアクセスの待ち時間が長いため非効率的です。キャッシュノードを追加することで、、この新しく追加されたキャッシュノードを最終出力ノードに融合するために適用できますキャッシュノードの融合により、最終出力ノードはその結果をキャッシュブロックに書き込み、ブロック内のすべてのデータが計算されるとすぐにメインメモリに書き込まれます。並列処理、可視性、およびマルチ処理に分解できます。-レベルのタイリングとデータの再利用によるノードの融合。space loopreduction loop
Rule 4(ReLU，bias_add)(conv2d, matmul)
Rule 5DAGDAGRule 4
Rule 6rfactorreduction loopspace loop
Rule 3Rule 4Rule 5

の場合GPU、タイル構造を使用し"SSSRRSRS"、最初の 3 つのスペースタイルのループはそれぞれBlockIdx、仮想スレッド (競合virtual threadを減らすためbank) およびにバインドThreadIdxされ、2 種類のスケッチ導出ルールを追加します。1 つは、キャッシュノードを挿入することによるものです。共有メモリ ( と同様Rule 5)、およびクロススレッド削減用のもう 1 つ ( と同様Rule 6)。

このセクションの最初の図は、生成されたスケッチの 3 つの例を示しています。スケッチは、TVM手動テンプレートでは高レベルの構造と低レベルの詳細の両方を指定するのに対し、スケッチは高レベルの構造のみを定義するという点で異なります。たとえばInput 1、DAG4 つのノードの並べ替え順序は $(A 、 B 、 C 、 D)$ 。スケッチを取得するにはDAG、出力ノード $D (私 = 4)$ ルールを開始し、ノードに 1 つずつ適用します。具体的には、生成されるSketch 1導出プロセスは次のとおりです。

ここに画像の説明を挿入

右側Input 1はDAG理解すべきノードです。AおよびBは入力データノード、Cはmatmulノード、Dは出力ノード、AおよびBノーDドアプリケーションRule 1、CノードアプリケーションですRule 4。

たとえばInput 2、5 つのノードの並べ替え順序は $(A 、 B 、 C 、 D 、 E)$ 。同様に、出力ノード $E (私 = 5)$ 最初に、ルールを再帰的に適用すると、結果のSketch 1導出は次のようになります。

ここに画像の説明を挿入

右側Input 2はDAG理解するノードです。AはD入力データノード、Bはmaxノード、Cは xxx ノード、Eはmatmulノード、は出力ノードでもありA、、CおよびDノードアプリケーションRule 1、ノードBアプリケーションRule 2、EノードアプリケーションRule 5キャッシュノードを挿入します。をクリックして適用しますRule 4。

同様に、結果として得られるSketch 3派生プロシージャは次のようになります。

ここに画像の説明を挿入

5.2 ランダムな注釈

前のサブセクションで生成されたスケッチは、特定のタイルサイズや(loop annotation)並列処理、アンローリング、ベクトル化などのループアノテーションを持たないタイル構造のみを備えているため、不完全なプログラムです。このサブセクションでは、スケッチに注釈を付けて、微調整と評価のための完全なプログラムを作成します。
生成されたスケッチのリストを基に、ランダムにスケッチを選択し、ランダムにタイルサイズを埋め、一部の外側ループを並列化し、一部の内側ループをベクトル化し、一部の内側ループを展開します。また、プログラム内の一部のノードの計算された位置をランダムに変更して、タイル構造をわずかに調整します。ここでのすべては、"随机"すべての有効な値にわたる一様な分布を意味します。特殊なアルゴリズムがカスタム注釈を有効にする必要がある場合 (特殊なアンローリングなど)、ユーザーは計算定義に簡単なヒントを与えて注釈戦略を調整することができます。最後に、定数テンソルのレイアウトの変更は実行時のオーバーヘッドなしでコンパイル時に実行できるため、マルチレベルタイリングの観点から定数テンソルのレイアウトを書き直して、可能な限りキャッシュしやすいものにします。この最適化が機能するのは、畳み込み層または全結合層の重みテンソルが推論アプリケーションでは一定であるためです。
ランダムサンプリングの例は、このセクションの冒頭の図に示されていますが、長さのサイクルが単純化されているため、サンプリングプログラムのサイクルはスケッチよりも少ない場合があります1。

loop annotationこれは、ループ本体に特定のタグを追加して、コンパイラにループ本体の性質と特性を伝え、コンパイラがループ本体の実行をより適切に最適化できるようにすることを指します。これらのタグは通常、コードのループ本体にコメントの形式で追加されます。
一般的なものは次loop annotationのとおりです。
1. unroll: ループをアンロールします。つまり、ループ本体内のコードを複数回コピーして、ループ制御ステートメントのオーバーヘッドを削減します。
2. vectorize: ベクトル化されたループ、つまり、複数回実行される同じ操作を 1 つの操作に結合して、ループ本体の実行を高速化します。
3. parallelize: ループを並列化します。つまり、ループ本体の実行を高速化するために、ループ本体内の複数の反復を異なるプロセッサコアまたはスレッドに割り当てて実行します。
4.パイプライン: ループ本体の複数の反復を複数のステージに分割し、異なるプロセッサコアまたはスレッドで同時に実行して、ループ本体の実行を高速化します。
使用する場合は、loop annotation特定の状況に応じて適切なマークを選択し、ハードウェアデバイスの特性に応じて最適化する必要があります。loop annotationループ本体の実行効率は向上しますが、多すぎるloop annotationとコードの可読性と保守性が低下する可能性があります。したがって、Lloop annotation最適な最適化スキームを使用する場合は、トレードオフと評価を行って最適な最適化スキームを決定する必要があります。------by ChatGPT

6. パフォーマンスの微調整

プログラムサンプラーによってサンプリングされたプログラムは、検索スペースを十分にカバーしていますが、タイル構造やループアノテーションなどの最適化オプションがランダムにサンプリングされるため、品質は保証されません。そこで著者らは、進化的探索とコストモデルの学習を通じてサンプルプログラムのパフォーマンスを微調整するパフォーマンスチューナーを導入しました。
各反復では、まず進化的検索を使用して、学習したコストモデルに従って有望なプログラムの小さなバッチを見つけます。次に、これらのプログラムをハードウェア上で測定して実際の実行時間コストを取得し、最後に測定結果のパフォーマンスデータにより、コストモデルがより正確になるように再トレーニングされます。
進化的探索では、以前に測定された高品質のプログラムを初期母集団としてランダムにサンプリングされたプログラムを使用し、突然変異と交叉を適用して次世代を生成します。学習されたコストモデルは、各プログラムの適合性を予測するために使用されます(fitness)。この場合、適合性はプログラムのスループットです。一定回数の進化を実行し、検索中に見つかった最適なプログラムを選択します。コストモデルは、実際の測定よりも桁違いに速く、相対的な精度でプログラムの適合性を推定できるため、学習済みコストモデルを利用します。これにより、サーチスペース内の数万のプログラムを数秒で比較し、実際の測定に有望なプログラムを選択することができます。

6.1 進化的探索

Tile size mutation: このアクションはプログラムをスキャンし、タイルサイクルをランダムに選択します。このタイリングループでは、1 つのタイルレイヤーのタイルサイズをランダムな係数で除算し、この係数を他のタイルレイヤーに乗算します。この操作により、タイルサイズの積が元のループ長と等しくなるため、変更されたプログラムは常に動作します。

Parallel mutation: このアクションはプログラムをスキャンし、parallel注釈付きのループをランダムに選択します。このループの場合、隣接するループレベルを融合するか係数で分割することにより、並列処理の粒度が変更されます。

Pragma mutation: プログラム内の一部の最適化は、プログラムをスキャンしてランダムに 1 つを選択するコンパイラ固有の操作によってpragma指定されますpragma。この場合pragma、op はそれを別の有効な値にランダムに変換します。たとえば、基になるコードジェネレーターは、auto_unroll_max_step=N pragma数値をランダムに調整することにより、最大ステップ数の自動展開をサポートしますN。

Computation location: この操作はプログラムをスキャンし、非多層タイル化フレキシブルノード (畳み込み層のパディングノードなど) をランダムに選択します。このノードの場合、操作により計算された位置が別の有効な追加ポイントにランダムに変更されます。

Node-based crossover: においてAnsor、プログラムの遺伝子はプログラムの書き換えステップです。Ansor生成された各プログラムは、最初の単純な実装から書き直され、スケッチ生成およびランダムアノテーション中にAnsor各プログラムの完全な書き換え履歴が保存されます。書き換えステップは、このプログラムが最初の元のプログラムからどのように形成されたかを記述するため、プログラムの遺伝子と考えることができます。これに基づいて、2 つの既存のプログラムの書き換え手順を組み合わせて、新しいプログラムを生成できます。ただし、2 つのプログラムの書き換えステップを任意に組み合わせると、ステップ間の依存関係が壊れ、無効なプログラムが作成される可能性があります。したがって、異なるノードにわたる書き換えステップの依存性は通常低いため、のAnsorクロスオーバー操作の粒度はのノードに基づきます。各ノードの親をランダムに選択し、選択したノードの書き換えステップをマージします。ノード間に依存関係がある場合は、単純なヒューリスティックを使用してこれらのステップを分析および調整しようとします。マージされたプログラムをさらに検証して、機能が正しいことを確認します。少数のループ変換書き換えステップのみが使用され、基礎となるコードジェネレーターが依存関係分析を通じて正確さをチェックできるため、検証は簡単です。DAGAnsorAnsorAnsorAnsor

進化的探索では、突然変異とクロスオーバーを使用して、複数のラウンドで新しい候補プログラムのセットを繰り返し生成し、ターゲットハードウェア上でコンパイルおよび測定される最高スコアのプログラムのセットを出力して、現実的な実行時コストを取得します。コストモデルを更新するために使用されます。このようにして、学習されたコストモデルの精度がターゲットハードウェアに合わせて徐々に向上します。したがって、進化的探索により、ターゲットのハードウェアプラットフォーム向けに、より高品質なプログラムが徐々に生成されます。固定グリッド状パラメータ空間でのみ機能するおよびの
検索アルゴリズムTVMとは異なり、の進化演算は、テンソルプログラム用に特別に設計されています。これらは一般的な tensor プログラムに適用でき、複雑な依存関係を持つ検索空間を処理できます。自動スケジューラのアンワインドルールとは異なり、これらの操作はプログラムに対して順序外の変更を実行して、順序制約に対処することができます。FlexTensorAnsorHalide

6.2 学習されたコストモデル

私たちのターゲットプログラムは主に、最も内側のステートメントとして複数の代入ステートメントを持つ複数のインターリーブループネストで構成されるデータ並列テンソルプログラムであるため、コストモデルをトレーニングして、ループネスト内の最も内側の非ループステートメントのスコアを予測します。完全なプログラムでは、最も内側の非循環ステートメントごとに予測を行い、予測をスコアとして合計します。完全なプログラムのコンテキストで特徴を抽出することによって、最も内側の非循環ステートメントの特徴ベクトルを構築します。抽出された特徴には、算術特徴とメモリアクセス特徴が含まれます。機能の紹介については、他のサブセクションを参照してください。
損失関数として重み付き二乗誤差を使用します。主に検索空間からパフォーマンスの良いプログラムを特定することに関心があるため、より高速に実行されるプログラムにより多くの重みを与えます。のスループットで $yさん$ のプログラム $P$ 、モデル $f$ の損失関数は $w_p \big( \sum_{s \in S(P)} f(s) - y \big)^2 \\[5pt] =y \big( \sum_{s \in S(P)} f(s) - y \big)^2$ ここで $S (P)$ です $P$ に設定された最も内側の非循環ステートメントは $y$ を重みとして使用します。なるモデルとして
勾配ブースト決定木をトレーニングします。(XGBoost) $f$ DAG 、すべてのテンソルプログラムのモデルをトレーニングしDAGすべてのプログラムのスループットを同じからの[0,1]範囲まで正規化します。を最適化する場合DNN、測定されるプログラムの数は通常 10,000 未満であり3、このような小さなデータセットでのトレーニングはXGBoost非常に高速であるため、増分更新を行うのではなく、毎回新しいモデルをトレーニングします。

7. タスクスケジューラ

DNNは多くの独立したサブグラフ (例: ) に分割できconv2d + relu、一部のサブグラフでは、サブグラフのチューニングに時間を費やしても、次の 2 つの理由により、エンドツーエンドのDNNパフォーマンスが大幅に改善されません:
(1)サブグラフはパフォーマンスのボトルネックではない、
(2)チューニングは最小限の改善しかもたらしません。サブグラフのパフォーマンスに。
重要でないサブグラフの調整に時間を無駄にしないように、Ansor異なる量の時間リソースが異なるサブグラフに動的に割り当てられます。たとえばResNet-50、グラフを分割すると、29固有のサブグラフができます。これらのサブグラフのほとんどは、さまざまな形状構成 ( input size、など) を持つ畳み込み層です。最適なテンソルプログラムはこれらの形状構成に依存するため、畳み込み層ごとに異なるプログラムを生成する必要があります。実際、ユーザーのすべてのアプリケーションには複数のが存在する可能性があります。これにより、サブグラフが増え、全体のチューニング時間を短縮する機会が増えます。これは、サブグラフ間で知識を共有して再利用でき、サブグラフが 1 つまたは別のサブグラフで複数回出現する可能性があるためです。サブグラフの高性能プログラムを生成するために実行されるプロセスとしてタスクを定義します。これは、単一のタスクを最適化するには数十のタスク (タスクなど) を完了する必要があることを意味します。タスクスケジューラは, 時間リソースをタスクに繰り返し割り当てます. 各繰り返しでは,タスクが選択され, サブグラフに対して有望なプログラムのバッチが生成され, プログラムはハードウェア上で測定されます. このような繰り返しを時間リソース単位として定義します. 。時間単位のリソースをタスクに割り当てると、そのタスクには新しいプログラムを生成して測定する機会が与えられます。これは、より良いプログラムを見つけるチャンスを意味します。kernel sizestrideDNNDNNDNN
DNNResNet-5029AnsorAnsor

7.1 問題の定式化

1 つDNNまたはグループをチューニングする場合、ユーザーは、遅延の削減、グループの遅延要件を満たす、チューニングによってパフォーマンスが大幅に向上しなくなった場合のチューニング時間を最小限に抑えるDNNなど、さまざまな種類の目標を設定できます。したがって、私たちはユーザーに目標を表現するための目的関数のセットを提供します。また、ユーザーが独自の目的関数を提供することもできます。合計DNNDNNDNN
$n$ 個のタスク、 $\in \mathcal Z^n$ は割り当てベクトルです。ここで $t_i$ タスク $i$ の時間単位の数 $i$ によって得られる最小サブグラフ遅延は、 $g_i(t)$ 関数の場合、DNNエンドツーエンドのコストを(cost)部分グラフ $f\big( g_1(t), g_2(t) とします。 ) 、 \dots、 g_3(t) \big)$ 場合、私たちの目標はエンドツーエンドのコストを $g_2(t)、\dots、g_3(t) \big)$ DNN単一のエンドツーエンド遅延を最小限に抑えるために $gif\big( g_1, g_2, \dots, g_n \ big) = \sum_{i=1}^{n} w_i \times g_i$ 其中 $w_i$ タスク $i が$ DNNに出現する。この式は単純なので、 $f$ DNNはエンドツーエンド遅延の近似値です

ここに画像の説明を挿入

上の表は、複数のを調整するために使用されるDNN目的関数の例を示しています。にしましょう $m$ はDNN数値、 $S (j)$ に属しますDNN $j$ のタスクセット。 $f_1$ 各の遅延を合計するとDNN、これは、DNNすべてのパイプラインを連続して一度に実行するコストを最適化することを意味します ( $f_2で)。$ 、私たちは $L_jします$ として定義DNN $j$ の遅延要件。これは、DNNj の遅延が満たされる場合、それに時間を費やしたくないことを意味します; $f_3$ 、私たちは $B_jします$ として定義DNN $j$ の基準遅延であるため、私たちの目標は、指定された基準遅延に対するスピードアップの幾何平均を最大化することです (最終的には $f_4 )。$ では、関数 $ES(g_i,t)を定義します。$ を見ることにより $i$ の遅延履歴は早期停止値を返します。これにより、各タスクの早期停止の効果を実現できます。

7.2 勾配降下法による最適化

目的関数を効果的に最適化するために、著者は勾配降下法に基づくスケジューリングアルゴリズムを提案します。そのアイデアは、現在の割り当て $t$ を選択するため $i$ 、近似目的関数 $\frac {\partial f} {\partial t_i}$ ，使 $argmax_i \big| \frac {\partial f} {\partial t_i} \big|$ 。楽観的な推測を行い、タスク間の類似性を考慮して勾配を近似します。
勾配近似式は次のとおりです。 $\frac {\partial f} {\partial t_i} = \frac {\partial f} {\partial g_i} \bigg( \alpha \frac { g_i(t_i ) - g_i(t_i - \Delta t)} {\Delta t} + \big(1 - \alpha\big)\big(min(-\frac {g_i(t_i)} {t_i}, \beta \frac { C_i} {max_{k\in N(i)} V_k} - g_i(t_i))\big) \bigg)$ ここで、 $\Delta t$ は小さな後方ウィンドウサイズ $g_i(t_i$ $)です。$ $g (t)$ 和 $g_i(t_i-\Delta t)$ すべて分布履歴 $N ($ $N (i)$ 是 $i$ $C_i$ 内の同様のタスクのコレクション $C$ タスク $i$ $V_k$ の浮動小数点演算の数 $V$ タスク $k$ で 1 秒あたりに完了できる浮動小数点演算の数 $\alpha$ 和 $\beta$ 特定の予測を信頼するように重みを制御します。
アルゴリズムを実行するには、Ansorから $t = 0 を$ 設定し、(round-robin)ウォームアップし(warm-up)初期割り当てベクトル $t=(1,1,\dots,1) を$ 。warm-upその後、各反復で各タスクの勾配を計算し、 $argmax_i \big| \frac {\partial f} {\partial t_i} \big| を$ 次に、タスク $i を$ 計算し、割り当てベクトル $t_i = t_i +1$ 、最適化プロセスは、時間バジェットが使い果たされるまで継続される。 $\epsilon$ を使用します。 $ϵ$ 貪欲戦略 $\epsilon$ (e-greedy)で保存します $ϵ$ はタスクをランダムに選択します。