LRがMSEを損失関数として使用できないのはなぜですか

理由の要約:

  1. MSEには勾配消失現象があります
  2. MSEの導関数は非凸関数であり、最適解を解くことは困難です。

証明:

1.勾配消失式の証明:

順序f(x)= \ theta x + b 、として示され sます。

単一項の式にのみ注意を払い、それを単純化して次のようにします。

hが0または1に近づくと、損失の導関数が0に近づき、勾配が消えることがわかります。

2.非凸関数式の証明

L {} '(\ theta) 二次導関数に注意を払うと、その二次導関数行列、つまりヘッセ行列は正定値行列ではないと結論付けることができます。導関数は非凸関数であり、凸関数ではなく、最適化するのは困難です。

(0,1)のh(1-h)が0より大きい場合L {} ''(\ theta)3時間^ 2-2時間 決定によりy = 0の場合と見なさ ます。 根は0である 
ため、つまり、[0,1]の範囲で正と負になります。したがって、正と負、つまり非凸関数があると結論付けられ ます。3時間^ 2-2時間\ frac {2} {3}L {} ''(\ theta)

 

参照:https//www.jianshu.com/p/af1e5cff21b9

おすすめ

転載: blog.csdn.net/Matrix_cc/article/details/105610513