Wasserstein 距離、収縮マップ、および最新の RL 理論

Wasserstein 距離、収縮マッピング、および現代の RL 理論 | Kowshik chilamkurthy 著 | 中くらい

1. 説明

        数学者がいくつかの応用を念頭に置いて探求した概念と関係は、数十年後には、彼らが最初に想像していなかった問題に対する予期せぬ解決策になります。リーマン幾何学はまったく応用することなく純粋な理由で発見され、後にアインシュタインによって時空と一般相対性理論の構造を説明するために使用されました。

2. RL 強化学習の概念

        強化学習 (RL) では、エージェントは逐次的な意思決定問題に対する最適なポリシーを探します。強化学習への一般的なアプローチ。この報酬または価値の期待をモデル化します。しかし、「分散型 RL」の旗印の下での RL の最近の進歩は、エージェントが受け取るランダムな収益 R の分散に焦点を当てています。状態操作値は、期待値 Q を持つ確率変数 Z として明示的にみなすことができます。        

式 1: 通常のベルマン演算子B

通常のベルマン演算子  (Eq-1)は、Q と BQの間の L 二乗 距離を反復的に最小化することでQ の値を近似する上で重要な役割を果たします( TD 学習)。

式 2:分散ベルマン演算子ⲧπ

同様に、分散ベルマン演算子ⲧπ は、Z とⲧπ Zの間の距離を反復的に最小化することで Z の値を近似します。

Z とⲦπ Z はベクトルではなく分布ですが、 2 つの異なる確率分布間の距離を計算するにはどうすればよいですか? 答えは多数ある可能性がありますが (KL、DL メトリックなど)、私たちは特にWasserstein 距離に興味があります。

3. ワッサーシュタイン距離とは何ですか

        ロシアの数学者レオニード・ヴァセルシュタインは1969 年にこの概念を思いつきました。Wasserstein 距離は、2 つの確率分布間の距離の尺度です。これは、EM 距離の略でブルドーザー距離としても知られています。非公式には、土の山を移動し、ある確率分布の形状から別の確率分布の形状に変換するための最小エネルギー コストとして解釈できるからです。

ブルドーザーの距離、画像出典: 著者

累積分布関数 F と G の間のWasserstein 計量 ( dp )は次のように定義されます。

式 3: Wasserstein メトリック

ここで、下限値は確率変数のすべてのペア (U, V) をとり、それぞれの累積分布 F とG を持ちます。 dp(F, G) は次のようにも書かれます。

式 4: Wasserstein メトリック

まず簡単なケースを見てみましょう。次のように定義された 2 つの離散分布 f(x) と g(x) があるとします。

f(1) = .1、 f(2) = .2、 f(3) = .4、 f(4) = .3 g(1) = .2、 g(2) = .1、 g(3) ) = .2,g
(4) = .5

式 3 を計算してみましょう: δ0 = 0.1–0.2 = -0.1 δ1= 0.2–0.1 = 0.1–2.0 = 4.0 δ2= 0.2–3.0 = 3.0



δ5= 0.2–<>.<> = -<>.<> で定義されています。ワッサーシュタイン メトリック ( dp )

したがって、 Wasserstein 計量 ( dp )  =∑|δi|=0.6

4. Wasserstein 距離を選択する理由

        カルバックとライブラーの発散とは異なり、ワッサーシュタイン指標は、さまざまな結果イベントの確率と距離を考慮した真の確率指標です。KL ダイバージェンスなどの他の距離メトリックとは異なり、Wasserstein 距離は、分布間の距離を意味のある滑らかな表現で表します。これらの特性により、Wasserstein は、結果の根底にある類似性が完全一致の可能性よりも重要な領域に適しています。
        

Python によって生成された例、画像クレジット: 著者

: KL ダイバージェンスの場合、測定値は赤と青の分布で同じですが、ワッサーシュタイン距離は確率質量を赤の状態から青の状態に転送するのに必要な仕事を測定します。

左: Wasserstein の距離には問題があります。移動が発生する限り、移動が発生する方向に関係なく、距離は同じままであり、確率質量も同じままです。したがって、距離について推論する方法はありません。

5. ɣ-収縮

        収縮マップは、強化学習の古典的な分析において重要な数学的役割を果たします。まず収縮を定義しましょう

5.1 収縮マッピング

        計量空間の要素に対して定義された関数 (または演算子またはマッピング) は、計量空間 X₁ および X₂ の任意の 2 つの要素に対して次が成り立つような定数 ɣ が存在する場合、縮約です。(X, d)

        式 5: 収縮マッピング

        これは、要素 X₁ と X₂ にマップ f(.) を適用した後、それらの相互の距離が少なくとも係数 ɣ だけ増加することを意味します 

5.2 RL収縮

        収縮を証明することは、距離メトリック自体の使用を正当化するため重要です。分布演算子 ⲧ π はZ(x, a) を推定するために使用され、ⲧ π は dp の短縮形であり、すべてのモーメントも指数関数的に速く収束することを意味することが わかります。

        式 6: ɣ 収縮

        収縮は、演算子 Ⲧ を 2 つの異なる分布に適用すると、それらの間の距離が短くなることが示されているため、距離メトリックの選択が重要です。ここで、「分布演算子 ⲧπ」がワッサーシュタイン距離 (dp) の短縮であることを証明してみましょう。

5.3 証明

        Wasserstein メトリクスの3 つの重要な特性は、収縮を実証するのに役立ちます。

6. 結論

        このブログでは、ワッサーシュタイン距離を定義し、その長所と短所について説明します。我々は、その縮小を実証することで、分散ベルマン演算子における距離メトリックとしての使用を正当化します。しかし、これは始まりの終わりにすぎません。ワッサーシュタイン距離は確率的勾配を計算するときに問題を引き起こし、関数近似を使用するときに非効率的になります。次回のブログでは、分位回帰を使用して Wasserstein メトリクスを近似する方法について説明します。

7. 引用

  1. 分布 - カルバック・ライブラー発散と比較したワッサーシュタイン計量の利点は何ですか? - 相互検証済み
  2. https://runzhe-yang.science/2017-10-04-contraction/#contraction-property

3. 強化学習の分布的観点

おすすめ

転載: blog.csdn.net/gongdiwudu/article/details/131982634
RL