第 3 章 線形モデル
1) 線形モデル (線形モデル) は、機械学習で最も広く使用されているモデルであり、サンプルの特徴の線形結合を通じて予測を行うモデルを指します。
2) 4 つの異なる線形分類モデル: ロジスティック回帰、ソフトマックス回帰、パーセプトロン、サポート ベクター マシン。
3.1 線形判別関数と決定境界
線形分類モデル (線形分類器) は、1 つ (または複数) の線形判別関数 f(x,w) =wTx+b と非線形決定関数 g() で構成されます。
3.1.1 2 クラスの分類
1) 2 種類の分類サンプル ラベル {-1、+1} または {0,1}
2) どちらの分類でも、必要なのは線形判別関数 f(x,w) = wTx +b だけです。特徴空間 Rd 内で f(x,w) = 0 を満たすすべての点は、決定境界または決定平面と呼ばれるセグメンテーション超平面を形成します。決定境界は、すべてのサンプルを 2 つの領域に分割する、つまり 2 値分類を実現します。
3)2次元空間では決定境界は直線であり、3次元空間では決定境界は平面であり、高次元空間では決定境界は超平面である。
4) ラベルが {-1, +1} の場合、y(n) f(x(n),w∗) > 0、つまり、予測値とラベル値が同じ符号を持つようにします。
3.1.2 複数クラスの分類
1) 多クラス分類 (Multi-classclassification) とは、カテゴリ C が 2 より大きい数の分類を指します。マルチクラス分類には通常、複数の線形判別関数が必要です。
2) マルチクラス分類問題には 3 つの一般的に使用される方法があります: 1 対 1 とその他、1 対 1 (2 つのクラスごとに分割)、argmax (クラス間で類似した領域をより適切に分割できる) )
3.2 ロジスティック回帰
1) ロジスティック回帰は、2 種類の分類問題を処理するために一般的に使用される線形モデルです。このセクションでは、ロジスティック回帰を当てはめるために y ∈ {0, 1} を採用します。
2) アクティベーション関数: その関数は、線形関数の値の範囲を実数区間から (0, 1) まで「絞り込む」ことであり、確率を表すために使用できます (sigmod 関数の使用など)。
3) ロジスティック関数: 1/(1+e^-(wx))、以下の図に示すように:
4) 線形回帰およびロジスティック回帰画像
ロジスティック回帰では、損失関数としてクロスエントロピーを使用し、勾配降下法を使用してパラメーターを最適化します。
(クロスエントロピー損失関数: 、y はラベル値、y^ は予測値、つまりロジスティクス関数の予測値)
5) 導出過程
パラメータ W の偏導関数形式は次のように取得されることがわかります: ; 勾配降下法に従ってパラメータを更新します (例: W1=W1-A*(損失関数の W1 への偏導関数) ここで、A は学習率、
3.3 ソフトマックス回帰
PS: 1. argmax は関数で、関数のパラメータ (セット) を見つける関数です。別の関数 y=f(x) があり、結果 x0= argmax(f(x)) がある場合、関数 f(x) が x=x0 を取るとき、f(x) の値の範囲が最大値が得られます。f(x) が同じ最大値を達成する点が複数ある場合、argmax(f(x)) の結果は点セットになります。
2. インジケーター関数: I(インジケーター関数)、I(X)、X が true の場合は 1 を返し、それ以外の場合は 0 を返します。
1) ソフトマックス回帰 (ソフトマックス回帰) は、多項ロジスティック回帰またはマルチクラス ロジスティック回帰とも呼ばれ、マルチクラス分類問題に関するロジスティック回帰を拡張したものです。
2) 全クラスのうち、クラス C の割合は次のとおりです。
3.3.1 パラメータの学習
1) N 個のトレーニング サンプル {(x(n), y(n))}N n=1 が与えられた場合、ソフトマックス回帰ではクロスエントロピー損失関数を使用して最適なパラメーター行列 W を学習します。
2) ソフトマックスは多項ロジスティック回帰であり、どちらもクロスエントロピー損失関数を使用するため、パラメーターの勾配形式は類似しています。
3) ソフトマックス回帰で使用される C 個の重みベクトルは冗長です。つまり、同じベクトル v がすべての重みベクトルから減算され、出力結果は変更されません。(どうしてか分かりません??)
3.4 パーセプトロン
パーセプトロンは、ニューロンを 1 つだけ備えた最も単純な人工ニューラル ネットワークであり、広く使用されている線形分類器です。
重み (シナプス)、バイアス (閾値)、活性化関数 (細胞体) など、生物学的ニューロンに対応するコンポーネントがあり、出力は +1 または -1 です。
3.4.1 パラメータの学習
1) 制約:上記と同じ。予測値が実際の値と同じであることを満足するために。
2) パラメータ更新プロセス:
3.4.2 パーセプトロンの収束
1) トレーニング セットが線形分離可能であれば、パーセプトロン アルゴリズムは有限回の反復後に収束できます。(ナンセンス)
(パーセプトロンの収束回数の範囲を証明するものですが、よくわかりません)
2) パーセプトロンは線形分離可能なデータの収束を保証できますが、次の欠点があります。
1. データセットが線形分離可能な場合、パーセプトロンは 2 種類のデータを分離する超平面を見つけることはできますが、汎化能力は保証できません。 。
2. パーセプトロンはサンプルの順序に敏感です。各反復の順序に一貫性がない場合、検出されるセグメンテーション超平面も一貫性がないことがよくあります。
3. トレーニング セットが線形分離可能でない場合、決して収束しません。
3.4.3 パラメータ平均パーセプトロン
1) 距離が大きいほど収束は早くなります。ただし、パーセプトロンは、見つかった判別関数が最適であることを保証できないため、過学習につながる可能性があります。パーセプトロンによって学習された重みベクトルは、トレーニング サンプルの順序に関連しています。反復順序で後からランク付けされた誤ったサンプルは、前の誤ったサンプルよりも最終的な重みベクトルに大きな影響を与えます。
したがって、上記の問題を最適化するためにパラメーター平均パーセプトロンが提案されます。
3.4.4 マルチクラス分類への拡張
3.5 サポートベクターマシン
1) サポート ベクター マシンは古典的な 2 クラス分類アルゴリズムであり、検出されるセグメンテーション超平面は堅牢性が優れているため、多くのタスクで広く使用されており、強力な利点を示しています。目的は、カテゴリを分割するための超平面を見つけることです。間隔が最大の場合、分割効果は最高になります。
3) サンプルから超平面までの距離を計算するための、同じ点から直線までの距離の公式:
3.5.1 パラメータの学習
1) 最適化方法、ラグランジュ乗数法、偏導関数を求め、0 から開始し、最適なパラメーター値を計算します。
ここで、サポート ベクトルは区間の端にある点と呼ぶことができます。
3.5.2 カーネル機能:
サンプルが2次元平面で分割できない場合には、高緯度XiとXjの内積の計算を簡略化するために、サンプル空間を高緯度空間まで拡張する。
カーネル関数は元の空間の高緯度空間でXiとXjの内積を計算することで計算を簡略化します。
3.5.3 ソフトマージン
サンプル内の少数の点がずれると、SVM は調整中にずれを生じ、結果が悪くなります。この問題を解決するには、サポート ベクター マシンに一部のサンプルでミスを許容する必要があります。これをソフトと呼びます。間隔。
3.6 損失関数の比較