ノイズ対比推定の概要

ノイズ対比推定 (NCE) は、統計モデル パラメーターを推定する方法です。
基本的な考え方は、非線形ロジスティック回帰を使用して観測データと人工的に生成されたノイズ データを区別し、区別する際の統計モデルのパラメータを学習することです。
著者らは、この方法の推定量が一貫した (収束した) 推定量であることを示し、漸近分散を分析しています。
特に、この方法は、非正規化モデル、つまり確率密度関数の積分が 1 ではないモデルのパラメータ推定に直接使用できます。正規化定数は、他のパラメータと同様に推定できます。

NCE推定器

X = ( x 1 , … , x T ) X=(\mathbf{x}_1, \ldots, \mathbf{x}_T) を使用します。バツ=( ×1バツT)は観測データを表すため、分布pm ( ⋅ ; θ ) p_m(\cdot; \theta) を使用します。pメートル( ;θ )不変式Y = ( y 1 , ... , y T ) Y=(\mathbf{y}_1, \ldots, \mathbf{y}_T)Y=( y1yT)は、分布pn ( ⋅ ) p_n(\cdot)p( )推定量θ ^ T \hat{\theta}_T^Tは、以下の目的関数のθ \theta を最大化するものとして定義されますθ
JT ( θ ) = 1 2 T ∑ t ln ⁡ [ h ( xt ; θ ) ] + ln ⁡ [ 1 − h ( yt ; θ ) ] (1) J_T(\theta) = \frac{1}{ 2T} \sum_t \ln[h(\mathbf x_t;\theta)] + \ln[1-h(\mathbf y_t;\theta)] \tag{1}JT()=2T_ _1tln [ h ( x;)]+ln [ 1h ( y;)]( 1 )インデックス
h ( u ; θ ) = 1 1 + exp ⁡ [ − G ( u ; θ ) ] G ( u ; θ ) = ln ⁡ pm ( u ; θ ) − ln ⁡ pn ( u ) h(\ . mathbf u; \theta) = \frac{1}{1+\exp[-G(\mathbf u; \theta)]}\\ G(\mathbf u; \theta) = \ln p_m(\mathbf u ; \theta) - \ln p_n(\mathbf u)h ( u ;=1+exp [ G ( u ;)]1G ( u ;=lnpメートル( u ;lnp( u )
ロジスティック回帰は、 r ( x ) = 1 1 + exp ⁡ ( − x ) r(x) = \frac{1}{1+\exp(-x)} です。r ( x )=1 + e x p ( x )1h ( u ; θ ) = r ( G ( u ; θ ) ) h(\mathbf u; \theta) = r(G(\mathbf u; \theta)) とすると、h ( u ;=r ( G ( u ;θ ))
式 (1) は、データを X またはノイズ Y から区別するロジスティック回帰の対数尤度です。
NCEの考え方は、データとノイズを区別することでデータの分布を学習できるというものです。

著者は推定量θ ^ T \hat{\theta}_Tを証明します^T一貫性:
ここに画像の説明を挿入します

教師あり学習との関係

u ∈ X , C = 1 \mathbf u \in X,C=1 と仮定して、2 分類問題を考えます。あなた× C=1u ∈ Y , C = 0 \mathbf u \in Y,C=0あなたやあC=0の場合、確率条件はP ( u ∣ C = 1 ; θ ) = pm ( u ; θ ) P ( u ∣ C = 0 ) = pn ( u ) P(\mathbf u | C=1; \theta) となります。 = p_m(\mathbf u; \theta) \\ P(\mathbf | C=0)=p_n(\mathbf u)P ( u C=1 ;=pメートル( u ;P ( u C=0 )=p( u )サンプルが 2 つの分布から得られる確率は同じです。つまり、P ( C = 1 ) = P ( C = 0 ) = 1 2 P(C=1)=P(C=0)=\frac {1}{2 }P ( C=1 )=P ( C=0 )=21の場合、確率は
P ( C = 1 ∣ u ; θ ) = P ( u , C = 1 ; θ ) P ( u ) = P ( u ∣ C = 1 ; θ ) P ( C = 1 ) P ( u ∣ C = 1 ; θ ) P ( C = 1 ) + P ( u ∣ C = 0 ) P ( C = 0 ) = pm ( u ; θ ) pm ( u ; θ ) + pn ( u ) = h ( u ; θ ) P(C=1 | \mathbf u; \theta)=\frac{P(\mathbf u, C=1; \theta)}{P(\mathbf u)} = \frac{P(\ mathbf u | C=1; \theta)P(C=1)}{P(\mathbf | C=1; \theta)P(C=1) + P(\mathbf u | C=0)P( C =0)} = \frac{p_m(\mathbf u; \theta)}{p_m(\mathbf u; \theta) + p_n(\mathbf u)} \\ =h(\mathbf u;\theta)P ( C=1∣ u ;=P ( u )P ( u ,C=1 ;)。=P ( u C=1 ;θ ) P ( C=1 )+P ( u C=0 ) P ( C=0 )P ( u C=1 ;θ ) P ( C=1 )=pメートル( u ;+p( u )pメートル( u ;)。=h ( u ;θ ) P ( C = 0 ∣ u ; θ ) = 1 − P ( C = 1 ∣ u ; θ ) = 1 − h ( u ; θ ) P(C=0 | \mathbf u; \theta)=1- P(C=1 | \mathbf u; \theta)=1-h(\mathbf u;\theta)P ( C=0∣ u ;=1P ( C=1∣ u ;=1h ( u ;

ノイズ分布の選択

ノイズ分布はデータ分布にできるだけ似ている必要があります。そうでないと、分類問題が単純すぎて、アルゴリズムが実際のデータ分布に準拠するパラメータを学習できなくなります。
まず、データ分布に適合する基本モデルを学習し、次にこの基本モデルをノイズ分布として使用できます。

参考

AISTATS 2010《ノイズ対比推定:非正規化統計モデルの新しい推定原理》

おすすめ

転載: blog.csdn.net/icylling/article/details/129019962