new bing を使用してランダムに生成されたレビュー [つまらない実験]

確率過程は、ランダム現象を記述する数学的モデルであり、不確実性、変動性、およびダイナミクスを記述するために使用できます。機械学習における確率過程は、時系列データ、空間データ、グラフ構造データのモデリングや推論など、幅広い用途があります。この記事では、一般的に使用される確率過程モデル (ガウス過程、モデル原理、および機械学習における特定のアプリケーション) を紹介します。

ガウス過程は、無限次元のガウス分布と見なすことができる連続領域内のランダムな過程です。ガウス過程は、特定の平均関数と共分散関数によって定義される関数の不確実性を表すために使用できます。ガウス過程には、回帰、分類、クラスタリング、次元削減など、機械学習におけるさまざまな用途があります。その中で、ガウス過程回帰はノンパラメトリックベイジアン法であり、任意の形状の関数に適合し、予測値とその信頼区間を与えることができます。ガウス過程回帰の原理は、トレーニング データを使用して事後分布を計算し、事後分布に従って新しい入力ポイントの出力値を予測することです。具体的には、トレーニング データが{ ( xi , yi ) } i = 1 n \{(x_i,y_i)\}_{i=1}^n であるとします。{( ×y) }私は= 1n,其中 x i x_i バツは入力ベクトルyi y_iy出力スカラーです。出力値が次の形式のガウス ノイズ モデルに従うと仮定します。

yi = f ( xi ) + ϵ i , ϵ i ∼ N ( 0 , σ 2 ) y_i = f(x_i) + \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0,\sigma^2);y=f ( x)+ϵϵN ( 0 ,p2 )

どこでf ( x ) f(x)f ( x )は未知のポテンシャル関数σ 2 \sigma^2p2はノイズ分散です。f ( x ) f(x)とします。f ( x )は前のガウス過程に従います。

f ( x ) ∼ GP ( m ( x ) , k ( x , x ′ ) ) f(x) \sim \mathcal{GP}(m(x),k(x,x'))f ( x )G P ( m ( x ) ,k ( x ,バツ) ))

どこでm ( x ) m(x)m ( x )は平均関数で、通常ゼロまたは定数と見なされます;k ( x , x ′ ) k(x,x')k ( x ,バツ' )は共分散関数またはカーネル関数であり、異なる入力点間の類似性または相関を反映します。一般的に使用されるカーネル関数は、線形カーネル、多項式カーネル、放射基底カーネルなどです。

トレーニング データが与えられると、事後分布p ( f ∣ X , y ) p(f|X,y) を計算できます。p ( f X ,y ),その中X = [ x 1 , … , xn ] TX=[x_1,\dots,x_n]^Tバツ=[ ×1バツn]T ,y = [ y 1 , … , yn ] T y=[y_1,\dots,y_n]^Ty=[ y1yn]T ,f = [ f ( x 1 ) , … , f ( xn ) ] T f=[f(x_1),\dots,f(x_n)]^T=[ f ( x1) f ( xn) ]T._ _ ベイズ規則とガウス分布のプロパティ (条件付き分布と周辺分布は依然としてガウス分布です) によると、次のようになります。

p ( f ∣ X , y ) = N ( f ∣ μ , Σ ) p(f|X,y) = \mathcal{N}(f|\mu,\Sigma)p ( f X ,=N ( f μ ,S )

μ = K ( X , X ) ( K ( X , X ) + σ 2 I ) − 1 y Σ = K ( X , X ) − K ( X , X ) ( K ( X , X ) + σ 2 I ) − 1 K ( X , X ) \mu = K(X,X)(K(X,X)+\sigma^2I)^{-1}y \\ \Sigma = K(X,X)-K( X,X)(K(X,X)+\sigma^2I)^{-1}K(X,X)メートル=K ( X ,X ) ( K ( X ,X )+p2I )_1S=K ( X ,X )K ( X ,X ) ( K ( X ,X )+p2I )_1 K(X,X )

ここでK ( X , X ) K(X,X)K ( X ,X )は、カーネル関数k ( x , x ′ ) k(x,x')k ( x ,バツ)計算されたn× nn\times nn×n共分散行列。

ここで、新しい入力点x ∗ x_*があるとします。バツ、対応する出力値を予測したいf ∗ = f ( x ∗ ) f_* = f(x_*)=f ( x)とその不確実性。事後分布p ( f ∣ X , y ) p(f|X,y) をp ( f X ,y )予測分布p ( f ∗ ∣ x ∗ , X , y ) p(f_*|x_*,X,y) をp ( f×X

同時に、ガウス プロセスには、次のような機械学習における幅広いアプリケーション シナリオがあります。

回帰: ガウス過程回帰 (GPR) は、教師あり学習に GP を使用するベイズ法に基づくノンパラメトリック回帰手法です。入力データと出力データのセット( xi , yi ) i = 1 n (\mathbf{x}_i,y_i)_{i=1}^n( ×y)私は= 1n、出力yi y_iを仮定しますy与えられたf ( xi ) f(\mathbf{x}_i)に従うf ( x)を平均とし、σ n 2 \sigma_n^2pn2は分散のある正規分布です。

yi ∼ N ( f ( xi ) , σ n 2 ) y_i \sim \mathcal{N}(f(\mathbf{x}_i),\sigma_n^2)yN ( f ( x) pn2)

ここでf ( ⋅ ) f(\cdot)f ( )は未知の関数であり、GP 事前確率に従います。

f ( ⋅ ) ∼ GP ( m ( ⋅ ) , k ( ⋅ , ⋅ ) ) f(\cdot) \sim \mathcal{GP}(m(\cdot),k(\cdot,\cdot))()G P ( m ( ) ,k ( ,))

ここでm ( ⋅ ) m(\cdot)m ( )k ( ⋅ , ⋅ ) k(\cdot,\cdot)k ( ,)は、それぞれ事前平均関数と共分散関数 (カーネル関数とも呼ばれます) を表します。共分散関数は、出力が 2 つの入力間でどの程度類似しているかを測定し、通常はいくつかのハイパーパラメータθ \thetaθ (長さスケール、信号強度など)。与えられたハイパーパラメータθ \thetaθ和观测データD = { ( xi , yi ) i = 1 n } \mathcal{D}=\{(\mathbf{x}_i,y_i)_{i=1}^n\}D={( ×y)私は= 1nベイズのルールを使用して事後分布を計算できます。

p ( f ∣ D , θ ) = p ( y ∣ f , σ n ) p ( f ∣ θ ) p ( y ∣ θ , σ n ) p(f|\mathcal{D},\theta) = \frac{ p(y|f,\sigma_n)p(f|\theta)}{p(y|\theta,\sigma_n)}p ( f D ,=p ( y θ ,pn)p ( y f ,pn) p ( f θ )

正規分布は閉じた形式のベイズ規則を持つため、新しい入力x ∗ \mathbf{x}_*が与えられると、バツ対応する出力f ∗ f_*を予測する場合それも簡単です:

p ( f ∗ ∣ D , θ , x ∗ ) = ∫ p ( f ∗ ∣ f , θ , x ∗ ) p ( f ∣ D , θ ) dfp(f_*|\mathcal{D},\theta,\mathbf {x}_*) = \int p(f_*|f,\theta,\mathbf{x}_*)p(f|\mathcal{D},\theta)dfp ( fD ,私はバツ)=p ( ff ,私はバツ) p ( f D ,θ )自由度

この積分は解析的に解くこともでき、正規分布が得られます。

f ∗ ∣ D , θ , x ∗ ~ N ( μ ∗ , σ ∗ 2 ) f_*|\mathcal{D},\theta,\mathbf{x}_* \sim \mathcal{N}(\mu_*, \sigma_*^2)D ,私はバツN ( mp2)観測されたデータを使用して、目的関数の事後分布を推測し、予測値とその信頼区間を与えることができます。
ガウス過程回帰に関する革新的なモデルがディープ カーネル ラーニングで、ディープ ニューラル ネットワークとガウス過程を組み合わせ、ニューラル ネットワークを使用して入力データに対して非線形変換を実行し、次にガウス過程を使用して変換されたデータを回帰させます。これにより、ニューラル ネットワークの表現力とガウス過程の汎化能力を十分に活用できると同時に、ニューラル ネットワークのオーバーフィッティングの問題とガウス過程の計算量の問題を解決できます。避けた。ディープ カーネル学習は、画像分類、時系列予測、強化学習など、多くの分野で優れたパフォーマンスを発揮しています。
ディープ カーネル ラーニング (DKL) は、ディープ ラーニングとカーネル メソッドを組み合わせた機械学習フレームワークであり、ディープ ニューラル ネットワークの強力な表現機能とカーネル メソッドの柔軟性と解釈可能性を使用して、複雑な非線形データを処理することを目的としています。ディープ カーネル学習の基本的な考え方は、ディープ ニューラル ネットワークを使用してデータの低次元埋め込みを生成し、この埋め込み空間にカーネル関数を適用してデータ間の類似度または距離を計算することです。このように、ディープ ニューラル ネットワークは適応特徴抽出器と見なすことができ、カーネル関数は適応距離測定器と見なすことができます。

ディープ カーネル学習は、分類、回帰、クラスタリングなどのさまざまな機械学習タスクに適用できます。この論文では主に、ディープ カーネル学習に基づくクラスタリング手法、すなわちクラスタリングのためのディープ カーネル学習 (DKLC) を紹介します。この方法は、適切なカーネル関数を見つけて、サンプル データのクラスターを識別することを目的としています。具体的には、この方法では、多層パーセプトロン (MLP) を使用して、スペクトル クラスタリングによって動機付けられ、少なくともそれと同じくらい表現力のあるサンプル埋め込みを生成します。次に、ガウス動径基底関数 (RBF) を埋め込み空間のカーネル関数として使用して、サンプル間の類似度行列を計算します。最後に、類似度行列に対して固有分解が実行され、固有値と固有ベクトルに従ってクラスターの数と分布が決定されます。

この方法のトレーニング目的は、2 つの確率変数間の統計的相関または依存性の尺度であるヒルベルト シュミット独立基準 (HSIC) に基づいています。HSIC は、対応する再現カーネル ヒルベルト空間 (RKHS) における 2 つの確率変数の内積 (内積) または射影 (射影) と見なすことができます。したがって、HSIC を最大化することは、それぞれの RKHS 内の 2 つの確率変数の射影の間の角度のコサイン値を最大化することと同等であり、可能な限り相関または従属します。

DKLC では、トレーニングの目標は入力データ X と出力埋め込み Z の間の HSIC 値を最大化することであり、制約 Z はスペクトル クラスタリングに必要な条件を満たします。各サンプル ポイントとそれが属するクラスター中心との間の距離は次のとおりです。最小化、異なるクラスター中心 各クラス間の距離が最大化、各クラスターの内部分散が最小化、各クラス クラスターのサイズが均等に分散、など。これらの条件は、スティーフェル多様体にラグランジュ乗数法と勾配降下法を導入することで実現できます。
DKLC 方式には次の利点があります。

  • ディープ カーネル学習 (つまり、ディープ カーネルを使用したガウス プロセス) を利用して、隠された複雑なアクション値関数を学習できます。これにより、より多くの不確実性をエンコードし、保存された過去の相互作用情報を最大限に活用できます。
  • カーネル関数を明示的に導入することで内積演算を回避し、特徴変換の次元を無限に増やし、データ空間の非線形問題を特徴空間の線形問題に変換できます。
  • ヒルベルト シュミットの独立基準に基づいて学習目標を最適化するために Stiefel 多様体で勾配適応を実行することにより、固有分解に依存するスペクトル メソッドを大幅に高速化できます。
  • 再トレーニングやパラメーターの調整を行うことなく、サンプル外のデータに直接適用できます。

上記の利点に基づいて、シドニー工科大学の人工知能センターの Lu Jie 教授のチームを参照して、ディープ カーネル学習に基づくアプリケーション イノベーション モデル、ベイズ深層強化学習 (BDKRL) を提案しました。このモデルは、連続状態空間とアクション空間、高次元の観測、およびまばらな報酬を使用して、複雑な強化学習の問題を解決するように設計されています。詳細な原則は次のとおりです。

  • まず、ディープ ニューラル ネットワークを使用して、スペクトル クラスタリングによって動機付けられ、少なくともスペクトル クラスタリングと同じくらい表現力のあるサンプル埋め込みを生成します。これにより、元の観測を低次元でコンパクトな暗黙的な特徴空間にマッピングできるため、計算の複雑さとノイズ干渉が軽減されます。
  • 次に、ディープ カーネル学習モデルを使用してアクション バリュー関数を近似します。このモデルは、ディープ カーネルを備えたガウス過程リグレッサーであり、履歴データに基づいてカーネル関数パラメーターを適応的に調整でき、不確実性と非線形関係を捉えることができます。これにより、行動価値関数の一般化能力とロバスト性が向上します。
  • 最後に、ヒルベルト シュミットの独立性基準に基づく損失関数を使用して、ネットワーク トレーニングを導きます。この損失関数は、埋め込み表現とアクション値関数の間の相互情報量を最大化し、埋め込み表現と観測の間の相互情報量を最小化することを目的としています。これにより、アクション値関数よりも埋め込み表現の予測力が向上し、観測データへの依存が軽減されます。

深層カーネル学習に基づくベイズ深層強化学習のすべての式は、次のように導き出されます。

まず、環境のダイナミクスが未知の関数f : S × A → S f: \mathcal{S} \times \mathcal{A} \rightarrow \mathcal{S} によって支配されていると仮定します。:S×S \mathcal{S}で表されますSは状態空間、A \mathcal{A}Aはアクションスペースです。ディープ カーネル学習モデル (つまり、ディープ カーネルを使用したガウス過程) を使用して、この関数を近似します。つまり、
f ( s , a ) = g ( ϕ ( s , a ) ) + ϵ f(s,a) = g( \ phi(s,a)) + \εf ( s ,a )=g ( ϕ ( s ,+ϵ
ここでgggはガウス過程、ϕ \phiϕは深層ニューラル ネットワーク、ϵ \epsilonϵはガウス ノイズです。θ \thetaを使用しますθ はニューラル ネットワークのパラメーターを表し、kkk はガウス過程のカーネル関数を表します。

私たちの目標は、最適な方策π ∗ \pi^*を見つけることです。円周率つまり、 π
∗ = arg ⁡ max ⁡ π E p π ( τ ) [ ∑ t = 0 ∞ γ tr ( st , at ) ] \pi^* = \arg\max_ \pi \mathbb {E}_{p_\pi(\tau)}\left[\sum_{t=0}^\infty \gamma^tr(s_t,a_t)\right]円周率=ar g円周率最大pp( t )[t = 0ct r(stat)]
其中 p π ( τ ) p_\pi(\tau) pp( τ )は戦略π \piによって生成された軌道分布π , τ = ( s 0 , a 0 , s 1 , a 1 , … ) \tau = (s_0,a_0,s_1,a_1,\dots)t=( s0a0s1a1)r ( s , a ) r(s,a)r ( s ,a )は報酬関数γ ∈ ( 0 , 1 ) \gamma \in (0,1)cε( 0 ,1 )は割引係数です。

この問題を解決するために、事後分布p ( f ∣ D ) p(f|\mathcal{D}) を使用するベイズ深層強化学習 (Bayesian Deep Reinforcement Learning) を使用します。p ( f D )はアクション値関数Q π ( s , a ) Q^\pi(s,a) をQπ (s,a)和策略 π ( a ∣ s ) \pi(a|s) π ( a s )。その中D = { ( si , ai , si ′ ) } i = 1 N \mathcal{D} = \{(s_i,a_i,s_i')\}_{i=1}^ND={(as) }私は= 1N履歴インタラクション データセットです。

具体的には、次の式を使用して行動価値関数を更新します
。 s ' ) ds ' Q^\pi(s,a) = r(s,a) + \gamma \int_{s'} p(f|\mathcal{D})(s'|s,a) V^ \pi(s') ds'Qπ (s,a )=r ( s ,a )+csp ( f D ) ( s s,_a ) π (' )ds'
どこでV π ( s ) = ∫ a Q π ( s , a ) π ( a ∣ s ) da V^\pi(s) = \int_a Q^\pi(s,a) \pi(a|s)はいπ ()=aQπ (s,a ) π ( a s ) d a . ここでの積分演算は、モンテカルロ サンプリングで近似できることに注意してください。

次に、次の式を使用してポリシーを更新します。
log ⁡ π ( a ∣ s ) = Q π ( s , a ) − V π ( s ) \log\pi(a|s) = Q^\pi(s ,a ) - V^\pi(s)ログ_π ( a s )=Qπ (s,a )π ()

事後分布p ( f ∣ D ) p(f|\mathcal{D}) を計算するにはp ( f D )、事前分布p ( f ∣ θ ) p(f|\theta) をp ( f θ )と尤度関数p ( D ∣ f , θ ) p(\mathcal{D}|f,\theta)p ( D f ,θ ) . ガウス過程理論によれば、
p ( f ∣ θ ) = N ( g ( 0 ) , K ) p(f|\theta) = N(g(0), K)p ( f θ )=N ( g ( 0 ) ,K )
其中K ij = k ( ϕ ( si , ai ) , ϕ ( sj , aj ) ) + σ n 2 I ij K_{ij} = k(\phi(s_i,a_i),\phi(s_j,a_j) ) + \sigma_n^2 I_{ij}Kij=k ( ϕ ( sa) ϕ ( sa)))+pn2ij同様に、
p ( D ∣ f , θ ) = N ( f , K ′ ) p(\mathcal{D}|f,\theta) = N(f, K')p ( D f ,θ)=N(f,K)
其中 ( K ′ ) i j − 1 = k ′ ( ϕ − 1 ( g − 1 ( f i ) ) , ϕ − 1 ( g − 1 ( f j ) ) ) + ( σ n ′ ) 2 I i j (K')^{-1}_{ij} = k'(\phi^{-1}(g^{-1}(f_i)),\phi^{-1}(g^{-1}(f_j))) + (\sigma_n')^2 I_{ij} (K)ij1=k(ϕ1(g1(fi)),ϕ1(g1(fj)))+(σn)2Iij

ベイズの定理によれば、
p ( f ∣ D ) = p ( f ∣ θ ) p ( D ∣ f , θ ) / p ( D ) p(f|\mathcal{D}) = p(f |\theta)p(\mathcal{D}|f,\theta)/p(\mathcal{D})p ( f D )=p ( f θ ) p ( D f ,i ) / p ( D )

p ( D ) p(\mathcal{D})からp ( D )fffには何の関係もないので、これを定数として扱い、証拠下限 (ELBO) 関数を定義できます。
L ( θ ) = log ⁡ p ( D ) − KL ( p ( f ∣ θ ) ∣ ∣ p ( f ∣ D ) ) \mathcal{L}(\theta) = \log p(\mathcal{D}) - \mathrm{KL}(p(f|\theta)||p(f|\mathcal{D} ))L ( i )=ログ_p ( D )KL ( p ( f θ ) ∣∣ p ( f D ))

どこでKL \mathrm{KL}KL は、カルバック ライブラー ダイバージェンスの略です。私たちの目標は、ELBO 関数を最大化し、それによって事後分布p ( f ∣ D ) p(f|\mathcal{D}) をp ( f D )と事前分布p ( f ∣ θ ) p(f|\theta)p ( f θ )間の発散この目標を達成するために、深層ニューラル ネットワークを使用してffを表現する深層カーネル学習 (DKL) の方法を採用します。fの平均関数であり、ガウス過程 (ガウス過程、GP) を使用してfffの共分散関数f ( x ) = μ ( x ; θ ) + ϵ ( x ) f(x) = \mu(x;\theta) + \epsilon(x )
f ( x )=m ( x ;+ε ( x )

其中 μ ( x ; θ ) \mu(x;\theta) m ( x ;θ )は、パラメーターθ \thetaを持つディープ ニューラル ネットワークです。θϵ ( x ) \epsilon(x)ϵ ( x )は、共分散関数が k ( x , x ′ ) k(x,x') のゼロ平均ガウス過程です。k ( x ,バツ' ). このようにして、p ( f ∣ θ ) p(f|\theta)p ( f θ )は単純な関数です:
p ( f ∣ θ ) = N ( f ; μ ( X ; θ ) , K ( X , X ) ) p(f|\theta) = \mathcal{N}( f;\mu(X;\theta),K(X,X))p ( f θ )=N ( f ;m ( X ;i ) K ( X ,X ))

ここでXXXは入力データ行列、K ( X , X ) K(X,X)K ( X ,X )は k ( x , x ′ ) k(x,x')で与えられます。k ( x ,バツ' )共分散行列を計算します。同様に、 p ( D ∣ f , θ ) p(\mathcal{D}|f,\theta) と仮定できます。p ( D f ,θを無限小関数とする: p
( D ∣ f , θ ) = ∏ i = 1 np ( yi ∣ fi , θ ) = ∏ i = 1 n N ( yi ; fi , σ 2 ) p(\mathcal{D} ; |f,\theta) = \prod_{i=1}^np(y_i|f_i,\theta) = \prod_{i=1}^n\mathcal{N}(y_i;f_i,\sigma^2)p ( D f ,=私は= 1np (f=私は= 1nN (;p2 )

其中 y i y_i yは出力データ ベクトル、σ 2 \sigma^2p2はノイズ分散です。p( f ∣ D ) p(f|\mathcal{D})p ( f D )もガウス分布 (共役による) であるため、閉形式の解を使用してその平均と分散を計算できます。
p ( f ∣ D ) = ∏ i = 1 np ( yi ∣ fi , σ 2 ) p ( f ) ∫ f ∏ i = 1 np ( yi ∣ fi , σ 2 ) p ( f ) df = exp ⁡ ( − 1 2 ( y − f ) T Σ − 1 ( y − f ) ) exp ⁡ ( − 1 2 ( f − μ ) TK − 1 ( f − μ ) ) Z = exp ⁡ ( − 1 2 ( y − f ) T Σ − 1 ( y − f ) − 1 2 ( f − μ ) TK − 1 ( f − μ ) + C ) = exp ⁡ ( − 1 2 ( f − m ) T ( K + Σ ) − 1 ( f − m ) + C ' ) = N ( m , K + Σ ) \begin{aligned} p(f|\mathcal{D}) &= \frac{\prod_{i=1}^np(y_i|f_i,\ sigma^2)p(f)}{\int_f\prod_{i=1}^np(y_i|f_i,\sigma^2)p(f)\mathrm df}\\ &= \frac{\exp(- \frac12 (yf)^T\Sigma^{-1}(yf))\exp(-\frac12 (f-\mu)^TK^{-1}(f-\mu))}{Z}\\ &= \exp(-\frac12 (yf)^T\Sigma^{-1}(yf)-\frac12 (f-\mu)^TK^{-1}(f-\mu)+C)\\ &= \exp(-\frac12 (fm)^T(K+\Sigma)^{-1}(fm)+C')\\ &= \mathcal N(m,K+\Sigma) \end{aligned}p ( f D )=fi=1np(yifi,σ2)p(f)dfi=1np(yifi,σ2)p(f)=Zexp(21(yf)TΣ1(yf))exp(21(fμ)TK1(fμ))=exp(21(yf)TΣ1(yf)21(fμ)TK1(fμ)+C)=exp(21(fm)T(K+Σ)1(fm)+C)=N ( m ,K+S )。

σ = σ 2 I n \Sigma=\sigma^ 2I_nS=p2nはノイズ共分散行列です; μ = μ ( X ; θ ) \mu=\mu(X;\theta)メートル=m ( X ;θ )はニューラル ネットワークの出力ベクトル、Z は正規化定数、C と C'f-に依存しない定数は、
BDKRL メソッドが、いくつかの最先端の深層強化学習メソッドや、DQN や DDPG などの従来の強化学習メソッドよりも優れていることが実験的に示されています。
一般に、深層カーネル学習によるベイジアン深層強化学習 (BDRL-DKL) は、深層カーネル学習を強化学習に応用した手法です。主に以下の利点があります。

  • 従来のディープ ニューラル ネットワークの代わりにディープ カーネルを利用してアクション バリュー関数を推定できます。これにより、より多くの不確実性をエンコードし、保存された過去の相互作用情報を最大限に活用できます。
  • オーバーフィッティング (Overfitting) とアンダーフィッティング (Underfitting) の問題を回避できるベイジアン推論を通じてアクション バリュー関数を更新し、探索と利用のバランスを適応的に調整できます。
  • カーネル関数を介してさまざまなタイプとサイズのデータ​​セットに適応でき、モデルの一般化能力とスケーラビリティを向上させることができます。

深層カーネル学習に基づくベイズ深層強化学習には、次の欠点もあります。

  • 它需要大量的计算资源和时间来进行高斯过程和贝叶斯推理,这可能会限制其在实时或在线场景中的应用。
  • 它需要合适地选择或设计核函数以匹配数据特征,这可能会增加模型设计和调试的难度。
  • 它需要对高斯过程和贝叶斯推理有较深入的理解和掌握,这可能会增加模型使用者或开发者的门槛。

基于深度核学习的贝叶斯深度强化学习是一种结合了深度核学习和贝叶斯优化的新颖的强化学习方法,旨在解决高维、非线性、稀疏和不确定的动态环境中的决策问题。具体地说,采用深度核学习(即具有深度核的高斯过程)代替传统的深度学习模型来学习隐藏的复杂动作值函数,这样可以编码更多的不确定性,并充分利用保存的历史交互信息。然后,利用贝叶斯优化来高效地探索动作空间,从而找到最优或近似最优的动作。该方法可以做到:(1) 可以处理非平稳和部分可观察的环境;(2) 可以自适应地调整探索-利用之间的平衡;(3) 可以有效地处理连续和高维的动作空间;(4) 可以避免过拟合和欠拟合问题。是一种很新颖的算法,可以运用到很多场景当中。

おすすめ

転載: blog.csdn.net/qq_44799683/article/details/129307198