【秋募集】アルゴリズムポスト全8回エッセイにおける機械学習

おすすめリンク:
Axiu の学習ノートによくある面接の質問まとめ
JavaGuide
機械学習面接筆記試験 就職活動に必須の 8 部構成
エッセイ ナイーブ ベイズ モデル (ナイーブ ベイズ)
Random Forest – Random Forest | RF

機械学習

特徴エンジニアリング

  1. 特徴正規化の重要性: 特徴正規化はデータ前処理における重要な技術です。フィーチャ間の単位 (スケール) は異なる場合があるため後続の下流タスクでフィーチャの距離の計算を容易にするため、フィーチャ間の単位とスケールの違いによる影響を排除し、フィーチャの各次元を同等に扱うために、特徴を正規化する必要があります。[絶対値を相対値に変換して、どの次元の特徴の重要性を反映できるようにする]

  2. 特徴/ベクトル間の距離を計算する方法

    • ユークリッド距離: 空間内の点間の直線距離を測定します。n 次元ベクトル間の距離の計算式は次のとおりです。
      ∑ i = 1 n ( xi − yi ) 2 \sqrt{\sum_{i=1}^{n}(x_i-y_i)^2 }i = 1( ×私はy私は2

    • マンハッタン距離: 2 点(x 1, y 1) (x_1,y_1)( ×1y1)( x 2 , y 2 ) (x_2,y_2)( ×2y2)は次のように計算されます:
      ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ \left | x_1-x_2 \right | + \left | y_1-y_2 \right |x1バツ2+y1y2

    • チェビシェフ距離: 2 点(x 1, y 1) (x_1,y_1)( ×1y1)( x 2 , y 2 ) (x_2,y_2)( ×2y2)は、その座標間の数値の差の最大絶対値として定義されます。
      max ( ∣ x 1 − x 2 ∣ , ∣ y 1 − y 2 ∣ ) max(\left | x_1-x_2 \right | ,\left | y_1-y_2 \right | )最大x ( x1バツ2y1y2 )

    • コサイン類似度: 2 つのベクトル間の角度のコサイン値を計算します。1 に近いコサイン値は角度が 0 に近いことを示し、2 つのベクトルが類似していることを示します。コサイン値が大きいほどベクトルは類似しており、値の範囲は [-1, 1] です。多次元ベクトル間のコサイン値は次のように計算されます。
      cos Θ = ∑ i = 1 n ( xi × yi ) ∑ i = 1 nxi 2 + ∑ i = 1 nyi 2 cos\Theta=\frac{\sum_{i= 1}^ {n}(x_i\times y_i) }{\sqrt{\sum_{i=1}^{n} x_i^2} +\sqrt{\sum_{i=1}^{n} y_i^2 }}cosΘ _=i = 1バツ2 +i = 1y2 i = 1( ×私は×y私は)
      2 つの点を取得します(x 1, y 1) (x_1,y_1)( ×1y1)( x 2 , y 2 ) (x_2,y_2)( ×2y2)
      cos Θ ( ( x 1 , y 1 ) , ( x 2 , y 2 ) ) = x 1 x 2 + y 1 y 2 x 1 2 + y 1 2 × x 2 2 + y 2 2 cos\Theta ((x_1,y_1), (x_2,y_2))=\frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2}\times\sqrt{x_2^2+y_2^2} }cos Θ (( x1y1( ×2y2))=バツ12+y12 ×バツ22+y22 バツ1バツ2+y1y2

    • コサイン距離=1 - コサイン類似度

  3. One-Hot エンコーディングの役割
    One-Hot エンコーディングが使用される理由は、多くの機械学習タスクでは、特徴が必ずしも連続値であるとは限らず、離散値 (上記の表のデータなど) である場合もあるためです。これらのデータを数値で表すと、実行が大幅に効率化されます。

一般的なコンピューティング モデル

概要

機械学習における一般的なモデルには次のものがあります。

  • 線形回帰とロジスティック回帰: 主に数値データの予測などの予測問題に使用されます。その主な目的は、入力データの特性に基づいて数値出力結果を予測することです。
  • デシジョン ツリー:分類と回帰分析に使用される教師あり学習アルゴリズム分類問題では、デシジョン ツリーはデータの特性に基づいてデータをさまざまなカテゴリに分類します。回帰分析では、デシジョン ツリーは連続値を予測するために使用されます。
  • ランダム フォレスト モデル (ランダム フォレスト) : 古典的なバギング手法は、決定木統合に基づいた機械学習アルゴリズムで、通常は分類や回帰問題に使用されます。データセット内のサブセットと特徴をランダムに選択し、複数のデシジョン ツリーを構築してそれらをマージすることで、予測精度が向上し、過剰適合のリスクが軽減されます。その利点には、実装と解釈の容易さ、欠損データや外れ値に対する堅牢性、高精度が含まれます。
  • サポート ベクター マシン モデル: 主に分類問題に使用される教師あり学習アルゴリズムですその目標は、データを分類するためのさまざまなカテゴリ間の距離を最大化する最適な超平面 (線形または非線形) を見つけることです。
  • ベイジアン分類子モデル (ナイーブ ベイズ) : 因子間の依存関係を利用してカテゴリを予測します。その分類子モデルは大量のデータや計算リソースを必要とせず、大量の高次元データ セットを効率的に処理できます。さらに、ベイジアン分類モデルは確率モデルに基づいているため、理解と解釈が容易であり、モデルの最適化と調整が容易になります。同時に、ベイジアン分類器は欠損データも処理でき、強力な堅牢性と信頼性を備えています。
  • K-最近傍モデル:分類対象のサンプルの特性に最も近い K 個のトレーニング サンプルを見つけ、これらの K が属するカテゴリの大部分に基づいて、分類対象のサンプルのカテゴリを決定する分類アルゴリズムです。サンプルが属します。KNN アルゴリズムの主な利点は、理解が簡単で実装が簡単であることですが、大規模なデータ セットを処理する場合には時間がかかります。
  • ニューラル ネットワーク モデル (Neural Network):ニューロンに基づくコンピューティング モデル. シグモイド活性化関数を導入することにより、非線形表現機能を備え、画像認識や音声認識などの多くの複雑な機械学習問題を解決できます。これらには、畳み込みニューラル ネットワーク モデル (畳み込みニューラル ネットワーク)、リカレント ニューラル ネットワーク モデル (リカレント ニューラル ネットワーク)、敵対的生成ネットワーク (GAN) などが含まれます。さまざまなタイプのニューラル ネットワーク モデルには、独自のアプリケーション シナリオと焦点があり、適切なモデルを選択することで、特定の問題に対してより良い結果を得ることができます。

線形回帰モデルとロジスティック回帰モデル

線形回帰モデル
  1. モデルの仮定: 線形モデルは、従属変数と独立変数間の線形関係を仮定します。
  2. モデル定義: 線形回帰では、各次元の特徴に異なる重みを割り当てることで入力データを特徴づけることができるため、すべての特徴が連携して最終決定を下します。この表現方法は、フィッティングモデルの出力結果であり、その予測値が連続変数であり、その予測値が実数領域全体にあり、分類に直接使用できない状況に適していることに注意してください。
  3. 定義:
    h θ ( x ) = θ TX = θ 0 + θ 1 x 1 + ⋯ + θ nxn h_\theta (x)=\theta ^TX=\theta _0+\theta _1x_1+\cdots +\theta _nx_nh( × )=TX _=0+1バツ1++バツ
    そのうち、パラメータθ \thetaを求めます。θのコスト関数は平均二乗誤差 (MSE) です。
  4. 代价関数数:
    J θ = 1 2 m ∑ i = 1 m ( h θ ( xi ) − yi ) 2 J_\theta =\frac{1}{2m}\sum_{i=1}^{m}(h_\シータ (x^i)-y^i)^2J=2m_ _1i = 1メートル( h( ×y2
  5. 特徴: MSE は固有値の範囲に敏感であるため、線形回帰モデルは外れ値に非常に敏感です。一般に、特徴エンジニアリングは特徴を正規化するために使用されます。実際のパラメータを解く際には誤差の推定が含まれるため、解法には最小二乗法が使用されます。
ロジスティック回帰モデル
  1. モデル仮説: 独立変数の変化が従属変数に与える影響は、ロジスティック関数 (シグモイド関数) によって反映されます。

  2. 定義: ロジスティック回帰は理論的には線形回帰によってサポートされていますが、ロジスティック回帰はシグモイド関数 (対数確率関数 (ロジスティック関数) とも呼ばれます) を通じて非線形要素を導入するため、線形回帰に基づいて主に分類問題を解決します

  3. 一般式:
    h θ ( x ) = g ( θ T x ) , g ( z ) = 1 1 + e − z h_\theta (x)=g(\theta ^Tx),g(z)=\frac { 1}{1+e^{-z}}h( × )=g (Tx )_g ( z )=1+e−z _1
    其中, g ( z ) g(z) g ( z )は活性化関数を表します [活性化関数は、ニューラル ネットワークの表現能力を向上させるための非線形要素をモデルに追加し、線形モデルでは解決できない問題を解決するために使用されます。】ここでパラメータθ \thetaθのコスト関数はクロスエントロピー関数です。
    クロスエントロピー関数の定義:
    J θ = 1 m ∑ i = 1 m ( − yilog ( h θ ( xi ) ) − ( 1 − yi ) log ( 1 − h θ ( xi ) ) ) J_\theta =\frac { 1}{m}\sum_{i=1}^{m}(-y^ilog(h_\theta (x^i))-(1-y^i)log(1-h_\theta (x^私))))J=メートル1i = 1メートル( yi log(h( ×))( 1yi )log(1__h( ×i )))
    **最尤推定 (MLE)** を使用して解決された最適パラメータ:
    KaTeX 解析エラー: 未定義の制御シーケンス: 位置 10 の \sideset: \hat{w}=\̲s̲i̲d̲e̲s̲e̲t̲{ }{}{argmax}_w \…MLE ( max ) MLE(max)
    であることがわかります。M L E ( max )はJ θ ( min ) J_\theta(min)同等です。J()

  4. 特徴:ロジスティック回帰モデルは、シグモイドを付加した線形モデルとみなすことができます。シグモイド関数の対数確率関数を使用する理由については、ベルヌーイ分布の指数族形式、最大エントロピー理論などが関係します。ここでのパラメーター推定とは、最適化手法を通じてデータに最もよく適合するモデル パラメーターを決定することです。バイナリ分類問題では、負の対数尤度関数はまさにクロスエントロピー損失関数と呼ばれるものです。ただし、クロスエントロピー損失関数の構築は尤度関数だけを介したものではありません。

違い
  • 線形回帰とロジスティック回帰はどちらも、一般化された線形回帰モデルの特殊なケースです。2 人は兄弟であり、どちらも一般化線形回帰の実子です。
  • 線形回帰は回帰問題のみに使用でき、ロジスティック回帰は分類問題(二分類、多分類)に使用されます。
  • 線形回帰にはリンク関数がない、または機能しません。ロジスティック回帰のリンク関数は対数確率関数であり、シグモイド関数です。
  • 線形回帰ではパラメータ推定方法として最小二乗法が使用され、ロジスティック回帰ではパラメータ推定方法として最尤法が使用されます。

ナイーブ ベイズ分類器モデル (ナイーブ ベイズ)

  1. モデルの仮定: フィーチャは条件付きで独立している、つまり、ターゲット値が与えられた場合、1 つのフィーチャの存在は他のフィーチャの存在に影響を与えないと仮定されます。
  2. モデル定義: ベイズの定理と特定の仮定に基づいた分類方法です (特徴は互いに独立しています)。
  3. 一般式:
    P ( y ∣ x ) = p ( x ∣ y ) ⋅ p ( y ) p ( x ) P(y|x)=\frac{p(x|y)\cdot p(y)}{ p (バツ)}P ( y x )=p ( x )p ( x y )p ( y )
    ここで、P ( y ) P(y)P ( y )は事前確率 [特徴を考慮せずにカテゴリが発生する確率を指します。],P ( x ∣ y ) P(x|y)P ( x y )はサンプルxxカテゴリyyに対するxyの条件付き確率は尤度 (尤度)にもなり、通常はサンプル数が多くなりますx = x 1 + ⋯ + xnx=x_1+\cdots+x_nバツ=バツ1++バツ複数の特徴を表す】, p ( x ) p(x)p ( x )はyyと同じですy に依存しない正規化係数。
  4. 上記の式を解くのは非常に複雑であるため、Naive Bayes は、特徴が独立していると仮定するという神聖な仮定を与えています。ここにはいわゆる「ナイーブ」という言葉が反映されていますが、私たちの常識によれば、サンプルの特性が互いに独立であることはほとんど不可能であることもわかっています。多くの実験により、ナイーブ ベイズがテキスト分類タスクにうまく機能することが証明されています。
  5. 特徴:
    • Naive Bayes は代表的な生成モデルで、実際にマルチモデル (クラスの数だけモデルを構築) を構築し、各クラスの新しいサンプルの事後確率を計算し、どれが最大であるかを確認します。新しいサンプルがどのカテゴリに分類されるか。判別モデルには、データからP ( y ∣ x ) P( y ∣ x )を直接学習するモデルが 1 つだけあります。P (x ) yyを予測するy
    • Naive Bayes モデルはトレーニングを必要としませんが、データ セット (トレーニング セット) に新しいサンプルを直接使用して事後確率を計算し、分類します。
    • Naive Bayes では、連続値の場合、ガウス分布が仮定されます。
  6. 計算手順の例 (単純ベイズ モデルからの転載)
    ここに画像の説明を挿入します

デシジョンツリーモデル

ここに画像の説明を挿入します

  1. モデルの仮定: 各決定ノードは 1 つの特徴のみを考慮し、特徴に基づいてサンプルを分割します。
  2. モデル定義: デシジョン ツリーは、オブジェクトの属性とオブジェクトの値の間のマッピング関係を表す予測モデルです。決定木はツリー構造を持っています. 各葉ノードは分類に対応し, 非葉ノードは特定の属性の区分に対応します. サンプルは属性の異なる値に従っていくつかのサブセットに分割されます。
  3. モデル構築: 最新の CART アルゴリズムは、連続変数の予測を解決するための回帰ツリーと、離散変数の分類を解決するための分類ツリーの両方を生成できます。[回帰木生成の中心的な考え方] 予測誤差を最小限に抑えるため、分割点を見つけ、この点を分割線として使用してトレーニング セット D を 2 つの部分 D1 と D2 に分割し、それぞれのデータセット D1 と D2 の二乗差は最小限です。[分類木生成の中心的な考え方] 情報利得/ジニ係数を計算して特徴量の重要度を生成する 中心的な考え方は、より多くの情報を提供でき(情報利得が大きく)、データの一貫性が強い重要な特徴量を選択することです(不純物が少ない)木を建てに来てください。
  4. 特徴:
    • [利点] 理解と解釈が簡単で、ツリーを視覚化できます。データの準備はほとんど必要ありませんが、他の手法では通常、正規化が必要です。
    • [短所] デシジョン ツリー学習者は、過剰適合が発生するため、データに対して適切に一般化できない過度に複雑な数値を作成する可能性があります。ランダムフォレストは、これに基づいてこの欠点を克服します

ランダムフォレストモデル

ここに画像の説明を挿入します

  1. モデルの仮定: [モデルの仮定はデシジョン ツリーに似ていますが、いくつかの違いがあります。】ランダム フォレスト モデルは、サンプルと特徴にある程度のランダム性があることを前提としています。つまり、過剰適合のリスクを軽減するために、各決定木は一部のサンプルと一部の特徴のみを使用してトレーニングされています。ランダム フォレストのモデルの仮定は、単一の決定木のモデルの仮定よりも堅牢であり、サンプルの特性が互いに独立しているかどうかについての仮定を必要としないことに注意してください。したがって、ランダム フォレスト モデルは、変数間に特定の相関がある状況に対処できます
  2. モデルの定義: ランダム フォレストは多数のデシジョン ツリーで構成されており、異なるデシジョン ツリー間には相関関係がありません。分類問題と回帰問題の両方に使用できます。分類タスクを実行し、新しい入力サンプルが入ってくると、フォレスト内の各デシジョン ツリーが個別に判断され、分類されます。各デシジョン ツリーは、独自の分類結果を取得します。デシジョン ツリーの分類結果にはどの分類が含まれますか?ほとんどの場合、ランダム フォレストはこの結果を最終結果とみなします。
  3. モデル構築:
    1. サンプル容量 N のサンプルは、毎回 1 つのサンプルずつ、置換しながら N 回抽出され、最終的に N 個のサンプルが形成されます。選択された N 個のサンプルは、デシジョン ツリーのルート ノードのサンプルとしてデシジョン ツリーをトレーニングするために使用されます。
    2. 各サンプルに M 個の属性がある場合、決定木の各ノードを分割する必要がある場合、m << M の条件を満たすように、これらの M 個の属性から m 個の属性がランダムに選択されます。次に、これらの m 属性から何らかの戦略 (情報獲得など) を使用して、ノードの分割属性として 1 つの属性を選択します。
    3. 決定木の形成中、各ノードはステップ 2 に従って分割する必要があります (ノードによって次回選択される属性が、直前に親ノードが分割されたときに使用された属性である場合、ノードは到達したことになることが容易に理解できます)リーフ レベル。ノード、分割を続ける必要はありません)。分けられなくなるまで。決定木の形成プロセス全体では枝刈りは実行されないことに注意してください。
    4. ステップ 1 ~ 3 に従って多数のデシジョン ツリーを構築し、ランダム フォレストを形成します
  4. 特徴:
    • [利点] 次元削減や特徴選択を行わずに非常に高次元のデータ (多くの特徴を含む) を処理できる; 特徴の重要性を判断できる; 異なる特徴間の相互作用を判断できる; 過剰適合が容易ではない; 学習速度が高い比較的高速で、並列メソッドの作成が簡単です。実装も比較的簡単です。不均衡なデータ セットの場合、誤差のバランスをとることができます。; 特徴の大部分が欠落している場合でも、精度は維持できます。
    • [短所] ランダム フォレストは、一部のノイズの多い分類問題や回帰問題で過剰適合することが証明されています。異なる値の属性を持つデータの場合、より多くの値の分割を持つ属性がランダム フォレストに与える影響が大きくなります。そのため、ランダム フォレストによって生成される属性の重みが影響を受けます。この種のデータは信頼できません。

サポート ベクター マシン モデル (サポート ベクター マシン)

ここに画像の説明を挿入します

  1. モデルの仮定:
  • すべてのサンプルは高次元空間にあり、サンプルは超平面によって正確に分離できると仮定されます。
  • 最適な超平面は、両側の最も近いサンプル点を最大化する線形分類子であると想定されます。
  • 線形分離不可能なサンプルは、高次元空間上でマッピングすることにより、高次元空間上で線形分離可能になると考えられる。
  1. モデル定義: 2 分類モデルです。その基本モデルは、特徴空間上の最大間隔で定義された線形分類器です。最大間隔により、パーセプトロンとは異なります (パーセプトロンは線形分離可能なデータ点を見つけます)。 )。サポート ベクター アルゴリズムの目的は、超平面からの距離が最も大きい点を見つけることです (これらの点はサポート ベクターと呼ばれます)。SVM には、計算用の特徴マッピング (ガウス カーネルなど) を通じて現在のサンプル ポイントを高次元空間にマッピングするカーネル技術も含まれており、これにより本質的に非線形分類器となります
  2. 線形サポート ベクター機械学習アルゴリズム非線形 SVM アルゴリズム(詳細な導出プロセスについては、https://www.zhihu.com/tardis/zm/art/31886934?source_id=1005 を参照)。
  3. 特徴
  • [利点] 高次元の問題、つまり大きな特徴空間を解決できる、小さなサンプルで機械学習の問題を解決できる、非線形特徴の相互作用を処理できる、局所最小問題がない (ニューラル ネットワークなどのアルゴリズムと比較して)、問題がないデータ全体に依存する必要がある(サポートベクターを見つけることが重要)、汎化能力が比較的強い。
  • 【デメリット】 観測サンプルが多いと効率があまり高くない、非線形問題に対する普遍的な解がなく、適切なカーネル関数を見つけるのが難しい場合がある、カーネルの高次元マッピングの説明力関数、特にパス方向基底関数は強力ではありません。従来の SVM はバイナリ分類のみをサポートし、
    データの欠落に敏感です。

K 最近傍モデル

ここに画像の説明を挿入します

  1. モデルの仮定: サンプル間の距離測定が利用可能で、通常はユークリッド距離やマンハッタン距離などの方法を使用して測定されます。
  2. モデル定義:インスタンスベースの学習手法であり、距離とK値を事前に定義することを前提として、新しいサンプルに対して、そのサンプルに最も近いK個のサンプルのうち、最もカテゴリ数の多いカテゴリに分類する。k=1 の場合、最近傍アルゴリズムを表します。
  3. k 最近傍法には、k 値の選択、距離測定、分類決定ルールの 3 つの基本要素があります。
  4. **K 値の選択: **クロス検証 (トレーニング データと検証データの一部を 6:4 に分割するなど、サンプル データを一定の比率に従ってトレーニング データと検証データに分割) を通じて、 K 値を小さくし、K 値を増やし続けて検証セットの分散を計算し、最終的により適切な K 値を見つけます。
  5. アルゴリズムのステップ:
    1. トレーニング サンプルとテスト サンプルの各サンプル ポイントの間の距離を計算します (一般的な距離の測定には、ユークリッド距離、マハラノビス距離などが含まれます)。
    2. 上記のすべての距離値を並べ替えます。
    3. 距離が最小の最初の k 個のサンプルを選択します。
    4. これらの k 個のサンプルのラベルに基づいて投票し、最終的な分類カテゴリを取得します。
  6. 特徴:
  • 【メリット】トレーニング不要、シンプルで使いやすい。KNN は他のアルゴリズムと比較して比較的単純かつ明確なアルゴリズムであり、高度な数学的基礎がなくても原理を理解できます。; 外れ値には鈍感。
  • 【デメリット】 明確な学習プロセスがない、「遅延学習」の代表格である、学習フェーズではサンプルを保存するだけである、学習セットが大きい場合、大量のストレージスペースを使用する必要がある、トレーニング時間のオーバーヘッドはゼロです。KNN は各テスト ポイントの各トレーニング データ ポイントまでの距離を計算する必要があり、これらの距離ポイントにはすべての特徴が含まれます。データの次元が大きく、データ量が多い場合、 KNNは呪いになる

ニューラルネットワークモデル

このモデルにはさまざまなネットワーク モデルが含まれていますが、以下ではアプリケーションの焦点に従って概念を簡単に分析します。

畳み込みニューラル ネットワーク (CNN)
  1. 適用可能なシナリオ: 画像ベースのタスク。対象物の特徴は主にピクセル間の関係に反映されます。動画は画像を重ね合わせたものなので、動画コンテンツの処理も得意です。たとえば、ターゲットの検出、ターゲットのセグメンテーションなどです。
  2. 特徴:
    • コンボリューション カーネルの重み付けとプーリングのおかげで、大量のデータを含む画像を少量のデータに効果的に変換できます。
    • コンボリューションの特徴: ローカル認識、パラメータ共有、マルチコア
    • 畳み込みニューラル ネットワークの変換不変性。簡単に言うと、畳み込み + 最大プーリングは、ローカル変換不変性とほぼ等しくなります画像の特徴を視覚的に保持しており、画像を反転、回転、位置変更した場合でも、類似した画像を効果的に識別できます。
  3. 基本原理: 一般的な CNN は 3 つの部分で構成されます。
  • 畳み込み層: 画像内の局所的な特徴を抽出します。
  • プーリング層: ダウンサンプリングとも呼ばれ、パラメータの大きさを大幅に削減 (次元削減) し、オーバーフィッティングを防ぐことができます。その理由は、畳み込み後でも画像がまだ大きいため (畳み込みカーネルが比較的小さいため)、データの次元を削減するためにダウンサンプリングが実行されます。プーリング層は畳み込み層よりも効果的にデータ次元を削減できるため、計算量が大幅に削減されるだけでなく、過剰学習も効果的に回避できます。
  • 全結合層: 従来のニューラル ネットワークに似た部分で、目的の結果を出力するために使用されます。畳み込み層とプーリング層を経て次元削減されたデータを「実行」できるのは全結合層だけであり、そうでないとデータ量が多すぎて計算コストが高く効率が悪くなります。
  1. 問題点:
  • バックプロパゲーション アルゴリズムは大量のデータを必要とするため、深層学習では効率的なアルゴリズムではありません。
  • 検出対象が画像の左上隅から右下隅に移動し、相対位置が変化すると、プーリング後の特徴量が大きく変化し、ニューロンの重みに影響を及ぼし、誤認識につながります。
  • データセットは正規化する必要があります。さまざまなサイズが混在しているため、トレーニングが困難になります。
  • プーリング層の存在により、多くの非常に貴重な情報が失われ、全体と部分の関係も無視されます。
  • メモリ機能はなく、ビデオの検出は単一フレームの画像の検出に基づいています。
  1. 改善: CNN の画像内のピクセル位置に対するモデルの認識を高めます。たとえば、CoordConv、Transformer。
リカレント ニューラル ネットワーク (RNN)

ここに画像の説明を挿入します

  1. 該当するシナリオ: テキスト、オーディオ、その他のシーケンス データなどの「シーケンス データ (相互依存する一連のデータ ストリーム)」を処理する必要があります。
  2. 特徴: 上の図に示すように、「?」によって生成された特徴には過去の単語の特徴が含まれており、以前のすべての入力が将来の出力に影響を与えることを示しています。そしてシーケンスが進むにつれて、以前のデータが現在のデータに与える影響は小さくなります。
  3. 問題点:
    • 短期記憶の影響は大きくなります (オレンジ色の領域など) が、長期記憶の影響は小さいです (黒と緑の領域など) これが RNN の短期記憶の問題です。 ; 用語記憶に問題があり、非常に長い入力シーケンスを処理できません。
    • RNNのトレーニングには莫大なコストがかかる
  4. 改善: LSTM (Long Short Term Memory) は、時系列で長い間隔と遅延を伴う重要なイベントの処理と予測に適しています。

モデルの評価

  1. 過学習と過小学習
    • コンセプト分析
      • 過学習: モデルはトレーニング セットでは良好なパフォーマンスを示しますが、テスト セットではパフォーマンスが低下します。これにより、モデルの汎化パフォーマンスが低下します。
      • アンダーフィッティング: モデルはトレーニング サンプルの一般的なプロパティをまだ学習していません。トレーニング セットとテスト セットのパフォーマンスは良くありません。
    • 原因と解決策:
      • 過学習:データの観点から見ると、元のトレーニング データ自体には多様性がないため、データ量を増やすことができ、さまざまなデータ拡張方法を使用できます。モデルの特徴の観点からは、特徴がさまざまな詳細をシミュレートするため、データの量を増やすことができます。データを組み合わせることで、モデルの特徴を軽減するために減らすことができます;特徴が多い場合に特定の特徴が支配的になるのを防ぐために正則化が導入されます。
      • アンダーフィッティング: モデル特性の観点から見ると、特徴はデータの特性を学習していないため、特徴の組み合わせを通じて特徴の次元が増加します。ブースティング手法を使用して、現在の弱いモデルを強いモデルに結合します。
  2. 正則化: L1 正則化と L2 正則化
    ∥ x ∥ p = ( ∑ i = 1 n ∣ xi ∣ p ) 1 p \left \| x \right \| _p=(\sum_{i=1}^{n }\left | x_i \right |^p )^\frac{1}{p}× p=(i = 1x私はp )p1
    • p = 1 p=1の場合、L1 正則化はラプラス分布に従います。p=1、この式は L1 ノルムを表し、ベクトル内のすべての要素の絶対値の合計を表します。
      • 機能: L1 正則化は、スパース重み行列、つまりスパース モデルを生成できます。これにより、モデルのスパース性、つまり一部のパラメーターが 0 に等しいことが保証され、特徴の選択に使用できます。
      • 実用化: 線形回帰の L1 正則化は、通常、ラッソ回帰と呼ばれます。一般的な線形回帰との違いは、損失関数に L1 正則化項が追加されることです。L1 正則化項には、損失関数を調整するための定数係数 α があります。平均二乗誤差項と正則化項の重み。ラッソ回帰は一部の特徴の係数を小さくすることができ、絶対値が小さい一部の係数でも直接 0 に変更することで、モデルの汎化能力を強化します
    • L2 正則化はガウス分布に従い、モデルの安定性を確保できます。つまり、パラメーター値が大きすぎたり小さすぎたりすることはありません。
      • 実用化: 線形回帰の L2 正則化は通常リッジ回帰と呼ばれますが、一般的な線形回帰との違いは、損失関数に L2 正則化項が追加されることです。リッジ回帰は、特徴を破棄せずに回帰係数を減らすため、モデルは比較的安定しますが、ラッソ回帰と比較すると、モデルに多くの特徴が残ります。

おすすめ

転載: blog.csdn.net/qq_42312574/article/details/131512927