この記事は主に『機械学習』の第3章線形モデルの一部を収録しています。
線形モデルの基本形
線形モデルのベクトル形式:
f ( x ) = w T x + bf(\bm x) = \bm w^T \bm x + bf ( x )=wT ×+b線形モデルは形式が単純でモデル化が容易であり、重みベクトルw \bm ww は入力サンプルx \bm x予測におけるxの各特徴次元の重要性は、線形モデルの利点である解釈可能性 (理解可能性) に優れています。
さらに、線形モデルには機械学習のいくつかの重要なアイデアが含まれており、線形モデルに基づいて階層構造や高度なマッピングを導入することで、より多くの強力な非線形モデル (非線形モデル) が得られます。
線形回帰
線形モデルの古典的なタスクの 1 つは回帰タスクです。いわゆる「線形回帰」タスクは、新しいサンプルの出力ラベルをできるだけ正確に予測するように線形モデルをトレーニングすることを試みます。
一般的な状況は次のとおりです。
指定されたデータセットの場合、D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( xm , ym ) } D=\{(\bm x_1,y_1), ( \bm x_2,y_2), \cdots, (\bm x_m,y_m)\}D={
( x1、y1)、( ×2、y2)、⋯、( ×メートル、yメートル) },その中xi = ( xi 1 ; xi 2 ; ⋯ ; xid ) , yi ∈ R 。\bm x_i=(x_{i1}; x_{i2}; \cdots; x_{id}), y_i \in \mathbb R.バツ私は=( ×私1;バツ私2;⋯;バツ私は)、y私は∈R.線形回帰のタスクは、 f ( x ) = w T x + b を学習して、 f ( xi ) ≃ yif(\bm x) = \bm w^T \bm x + b を作成し、 f( \ bm
f ( x )=wT ×+b 、f ( x _私は)≃y私はこれは「多変量線形回帰」と呼ばれます。
学習のタスクは、重みベクトルw \bm wを決定することです。wとバイアスbbb、議論のために、w ^ = ( w ; b ) \hat {\bm w} = (\bm w; b) をw^=( w ;b )、y = ( y 1 ; y 2 ; ⋯ ; ym ) \bm y = (y_1;y_2;\cdots;y_m)y=( y1;y2;⋯;yメートル)、w ^ \hat {\bm w}
を決定する方法w^はどうですか? まず、測定モデルの予測値f ( xi ) f(\bm x_i)f ( x私は)と実際の値yyyの差を表す指標であり、一般的に使用される指標は平均二乗誤差。
E w ^ = ( y − X w ^ ) T ( y − X w ^ ) E_{\hat {\bm w}} = (\ bm y - \bm X\hat {\bm w})^T(\bm y - \bm X\hat {\bm w})Ew^=( y−バツw^ )T (y−バツw^ )平均二乗誤差を最小限に抑えるには、w ^ \hat {\bm w}w^,即w ^ ∗ = arg min w ^ ( y − X w ^ ) T ( y − X w ^ ) \hat {\bm w}^* = \arg \min_{\hat {\bm w} } (\bm y - \bm X\hat {\bm w})^T(\bm y - \bm X\hat {\bm w})w^∗=arg _w^分( y−バツw^ )T (y−バツw^ )を使用して重線形回帰モデルを取得します。
対数オッズ回帰
線形モデルの適用には、回帰タスクに加えて、分類タスクもあります。線形モデルを分類タスクに適用する場合、分類タスクの真のラベルyyを変換する単調微分可能な関数
を見つけることだけが必要です。yは回帰モデルの予測値にリンクされています。
二項分類タスクを例にとると、出力ラベルy ∈ { 0 , 1 } y\in\{0,1\}y∈{ 0 ,1 } 、一方、線形回帰モデルによって生成されるz = w T x + bz = \bm w^T \bm x+ bz=wT ×+bは実数値です。この 2 つを接続するには、単調微分可能な関数を見つける必要があります。一般的に使用されるのは対数確率関数 (ロジスティック関数) です: y = 1 1 + e − zy = \frac{1} {1 + e ^{-z}}y=1+e−z _1この関数は次のようになります。z値は 0 または 1 に近い値に変換されます。z= w T x + bz = \bm w^T \bm x+ bz=wT ×+b代入結果y = 1 1 + e − ( w T x + b ) ⇒ ln y 1 − y = w T x + by = \frac{1}{1 + e^{-( \bm w^T \ bm x+ b)}} \quad \Rightarrow \quad \ln\frac{y}{1-y} = \bm w^T \bm x+ by=1+e− ( wT x+b)1⇒ln1−yはい=wT ×+bこのようなモデルは、実際には線形回帰モデルw T x + b \bm w^T \bm x+ bの予測結果を使用していることがわかります。wT ×+bは真のマーカーyyy ln y 1 − y \ln\frac{y}{1-y}の対数オッズln1 − yはい, そのため、「対数確率回帰」(ロジスティック回帰) モデルと呼ばれます。名前は「回帰」ですが、実際には分類学習法です。
上記のアプローチの利点:
- データ分布に関する事前の仮定なしで、分類の可能性を直接モデル化します。
- 「カテゴリ」を予測できるだけでなく、おおよその確率予測も取得できるため、意思決定を支援するために確率を使用する必要がある一部のタスクで非常に役立ちます。
- 対数確率関数は、任意の次数で微分できる凸関数であり、優れた数学的特性を備えています。多くの既存の数値最適化アルゴリズムを直接使用して最適解を見つけることができます。
上記のモデル\bm w と b のw と b を決定します。wとbは「最尤法で推定できます。
線形判別分析 (LDA)
線形判別分析 (LDA) の基本的な考え方は次のとおりです。
トレーニング サンプル セットが与えられた場合、すべてのサンプルを直線上に投影して、直線上の同じクラスに属するサンプルの投影点ができる限り近くなるようにします。一方、異なるクラスに属するサンプルの投影点はできるだけ遠くなるようにします。モデルを学習させた後、新しいサンプルに適用するとき、つまり新しいサンプルを分類するときに、同じ直線上に投影され、投影点からの距離に応じてカテゴリが決定されます。新しいサンプルの各タイプのサンプルの中心点に最も近いカテゴリがどのカテゴリに属するかが 1 つのタイプになります。