アルゴリズム面接 - ディープラーニング面接の基礎質問集(2023.8.29~)

1. 教師なし相関 (クラスタリング、異常検出)

1. 一般的な距離測定方法は何ですか? 距離の計算式をメモします。

1) 連続データの距離計算:

ミンコフスキー距離族:

p = 1 の場合はマンハッタン距離、p = 2 の場合はユークリッド距離、p ->∞ の場合はチェビシェフ距離です。

コサイン距離:

 このうち A と B は比較対象の 2 つのベクトルであり、⋅ はベクトルの内積(内積)を表し、∥A∥ と ∥B∥ はベクトル A と B のユークリッド ノルム(L2 ノルムとも呼ばれます)を表しますそれぞれの番号)。コサイン距離の値の範囲は [0,2] で、値が小さいほど 2 つのベクトルは類似しており、値が大きいほど 2 つのベクトルは類似していません。2 つのベクトルが同じ方向を持っている場合、コサイン距離は 0 であり、それらが完全に似ていることを意味します。2 つのベクトルが逆方向を持っている場合、コサイン距離は 2 であり、それらが完全に似ていないことを意味します。ベクトルの類似性は、コサイン距離の補数であるコサイン類似度、つまり 1-コサイン距離 によっても測定できる場合があることに注意してください。コサイン類似度の値の範囲は [-1, 1] で、値が大きいほど 2 つのベクトルは類似しており、値が小さいほど 2 つのベクトルは類似していません。

2) 離散データの距離計算

ジャッカード距離: セット A と B の交点/セット A と B の和集合

ハミング距離: 同じ長さの 2 つの文字列の対応する位置にある異なる文字の数を表します。

 2. 一般的なクラスタリング アルゴリズムは何ですか?

主に、部門ベース、密度ベース、ネットワークベース、階層的クラスタリングなどがあります。さらに、半教師ありクラスタリング、ディープクラスタリング、アンサンブルクラスタリングなど、他の分野と組み合わせたクロスフィールドも多数あります。 。

3. クミーンズの原理は何ですか?

Kmeans は除算に基づくクラスタリングです。中心的な考え方は、クラス内の距離を可能な限り小さく保ち、クラス間の距離を可能な限り大きく保つことです。主なアルゴリズム プロセスは次のとおりです。

  • 初期 K の重心は、初期 K クラスターの中心点として機能します。K は人為的に設定されたハイパーパラメーターです。
  • すべてのサンプル ポイント n と K 個の重心の間の距離は個別に計算されます。ここでの距離は手動で定義され、さまざまな距離計算方法を使用して計算できます。各サンプル ポイントと k 個の重心の中で最も近い重心は、タイプ 1 クラスターに分割されます。
  • クラスターに対して集計計算を実行して重心を再計算します。kmeans では、集計計算に単純な平均法が使用されますが、中央値やその他の方法も計算に使用できます。
  • 上記のプロセスは、所定の反復回数に達するか、重心が大きく変化しなくなるまで繰り返されます。
  • kmeans の損失関数は次のとおりです。

 このうち、||xi - cj|| はデータ点 xi からクラスター中心 cj までのユークリッド距離を表し、I(condition) は指標関数で、条件が true の場合は 1、そうでない場合は 0 になります。J が小さいほど、サンプルの凝集度は高くなります。

4. Kmeans の初期点を選択するにはどうすればよいですか? さまざまな初期点の選択の欠点は何ですか? どうやって解決すればいいでしょうか?

  • ランダム初期化: 初期重心として K 個のサンプル ポイントをランダムに選択します。欠点は、選択した重心が同じクラスター内に非常に近い場合、最終的に反復された重心点がクラスター内に収まるため、反復結果が劣悪になる可能性があることです。 。最も理想的な状態は、K 個の重心が正確に K 個のクラスターであることです。ランダム初期化のランダム性により、複数のランダム初期化が考慮され、最良の集約結果を持つものが選択されます。
  • ランダム初期化: すべてのサンプル ポイントにクラスター番号がランダムに割り当てられ、最終的にすべてのサンプル ポイントが K 番号を持ち、グループ平均が実行されます。つまり、初期化された重心は、同じクラスター内のサンプルを平均することによって取得されます。ランダムな初期化と比較して、初期化された重心はより堅牢になりますが、ランダムな初期化にはまだ欠点があり、それは緩和されるだけです。

5. Kmeans は特徴またはサンプルを集約しますか? フィーチャ間の距離を計算するにはどうすればよいですか?

一般に、サンプルはクラスタリングされており、特徴量がクラスタリングされている場合、処理方法は単純で、元の出力が転置されます。目的は相関係数と似ています。収入と資産レベルなど、2 つの特徴の相関性が高い場合、2 つの特徴間の距離は比較的小さいですが、転置後の次元が非常に高いため、一般的には実現できません。 , サン​​プルが 100 万個ある場合、次元は 100 万個ありますが、これは計算上非現実的です。高次元データの距離測定も無効です。相関係数を直接計算する方が良いでしょう。

6. Kmeans を調整するにはどうすればよいですか?

  • 初期化戦略パラメータ調整
  • k のサイズパラメータ調整は手動法と肘法で表されます。
  • データの正規化と異常サンプルの処理

7. 肘法を紹介します。

エルボー法の縦軸はクラスタリング効果の評価指標であり、具体的な問題によって異なりますが、クラスタリングが別タスクとして存在する場合には、SSE(損失関数)やシルエット係数などのメトリクスを縦軸とし、最小の k で最良の結果が得られ、対応する k が最終的な選択となります。エルボ法を自動化する場合、k = n と k = n+1 の間の傾きを計算するだけで済みます。傾き n と n-1 の場合、傾き n+1 と傾き n の差、傾き n+ 2と傾きn+1の値が固定閾値を下回ると停止します。

 8. kmeans の欠点を解決するにはどうすればよいですか?

  • 異常サンプルに対して非常に敏感で、異常サンプルによりクラスター中心が遠くに引っ張られてしまいます。異常サンプルとは、特定の次元で特に大きな値または小さな値を持つサンプルを指します。ユークリッド距離では、デフォルトではすべての特徴が互いに独立しており、異常なサンプルは影​​響を及ぼします。解決策は、前処理を実行して異常なサンプルを除去または修正することです。
  • K 値を決定するのは困難です。解決策は、k のパラメータを調整することです。
  • 球状のクラスターのみを適合させることができ、多様体クラスターのような不規則なクラスターの場合は、クラスターの重なりの問題が発生する可能性があり、効果が不十分です。この状況は Kmeans アルゴリズムには当てはまらない可能性があります。変換アルゴリズムを考慮してください。
  • 個別のフィーチャ、欠落しているフィーチャを処理できません。
  • 全体的な最適性は保証されません。解決策は、これを複数回実行し、さまざまな局所最適化を最大限に活用することです。

9. コサイン距離とユークリッド距離の違いは何ですか? コサイン類似度はどのようなシナリオで使用する必要がありますか?

  • ユークリッド距離は数値の絶対的な差を反映し、コサイン距離は方向の相対的な差を反映します。
  • 例えば、2つのドラマのユーザーの視聴行動をカウントした場合、ユーザーAの視聴ベクトルは(0,1)、ユーザーBの視聴ベクトルは(1,0)となり、このとき両者のコサイン距離は非常に小さくなります。ユークリッド距離は非常に小さいが、ユークリッド距離は非常に小さいため、異なるビデオに対する 2 人のユーザーの好みを分析すると、関連する違いがより重視されるため、コサイン距離を使用する必要があることは明らかです。ログイン数と平均視聴時間によって特徴付けられるユーザー アクティビティを分析する場合、コサイン距離により 2 人のユーザー (1, 10) と (10, 100) は互いに非常に近いと考えられますが、明らかにこれら 2 人のユーザーのアクティビティの差を計算するには、ユークリッド距離を使用する必要があります。

10. コサイン距離は厳密に定義された距離ですか? メトリックが距離としてカウントされるためには、どのような要件を満たす必要がありますか?

  • 距離の定義: 集合において、要素の各ペアが 3 つの距離公理 (正の確実性、対称性、三角不等式) が成立するように実数を一意に決定できる場合、その実数は要素のペア間の距離と呼ばれます。 。
  • コサイン距離は正の確実性と対称性を満たしますが、三角不等式を満たさないため、厳密に定義された距離ではありません。

11. Kmeans で、それらを 100 個のカテゴリーにクラスター化したいと考えましたが、98 個のカテゴリーにしかクラスター化できないことがわかりました。なぜですか?

  • K が大きすぎて実際のクラスター数が K 未満であるため、反復プロセス中に空のクラスターが表示されます。
  • 最も単純なランダムな初期化でも、元のサンプル ポイントからいくつかのサンプル ポイントを重心として選択するため、初期化戦略では空のクラスターの問題は発生しません。空のクラスターが存在する場合、初期重心に異常サンプルを導入すると、この異常点は空クラスターの問題を起こさずに単独でクラスターを形成します。

12. Kmeans、GMM、EM の関係は何ですか?

  • Kmeans は分割に基づくクラスタリング アルゴリズム、GMM はモデルベースのクラスタリング アルゴリズム、EM は GMM のパラメータを推定するために使用される最適化アルゴリズムです。
  • Kmeans は GMM の特殊なケースとみなすことができ、Kmeans クラスタリングは球形、Kmeans クラスタリングは楕円体です。
  • Kmeans はハード EM を使用して解決し、GMM はソフト EM を使用して解決します。

13. 混合ガウスモデル GMM の中心となるアイデアは何ですか? GMM と多変量ガウスの違いは何ですか? 多変量ガウス関数には何が期待されますか?

  • GMM は、複数の関連する多変量ガウス分布の加重和です。
  • 混合ガウス モデル GMM は、多変量ガウス分布に基づいた概念であり、現実世界のデータは、異なる重みを持つ異なるパラメータを持つ複数の関連する多変量ガウス モデルの蓄積と合計で構成されていると彼は考えています。(独立多変量ガウス モデルは、相関多変量ガウス モデルの特殊なケースとみなすことができます)

14. GMM はどのように反復的に計算しますか? なぜ kmeans、GMM、EM は上記の条件を満たすのでしょうか?

  • EM アルゴリズムの原理: EM アルゴリズムは、勾配降下法と同様に、最尤関数の最適化に使用できます。最尤関数に隠れた変数がある場合、EM アルゴリズムは一般的に使用される最適化アルゴリズムです。EM アルゴリズム (期待値最大化アルゴリズム) は一般に 2 つのステップに分かれており、1 つ目は期待値ステップ (E ステップ) であり、もう 1 つは最大ステップ (M ステップ) です。

15. KNN アルゴリズムには損失関数がありますか?

KNN は遅延学習アルゴリズムであり、熱心な学習に対応します。

  • 遅延学習: データ セットから学習せずにデータ セットを保存するだけで、モデルのトレーニングは必要ありません。テスト データを受信した後、保存されたデータ セットに基づいてデータの分類または回帰を開始します。
  • 熱心な学習: 収集したデータから学習するにはモデルのトレーニングが必要です。分類や回帰はテスト データを受け取った直後に完了します。

2. 不均衡な学習

1. データの不均衡を解決し、サンプリングによって得られた分類精度を元の精度に変換するにはどうすればよいですか?

サンプリング後に、サンプリング率に応じて予測カテゴリを増減します。たとえば、カテゴリ A が 50% ダウンサンプリングされた場合、予測結果内の予測カテゴリ A の数は m になります (m=m/0.5=2m とします)。次に分類精度を計算しますが、このデータ処理方法は不正確であり、元のデータに対して直接評価指標を計算するのが合理的な方法です。

2. 不均衡なトレーニング セット (正のサンプルと負のサンプル 1:3) がダウンサンプリングを通じて平衡化された場合、平衡化された AUC 値と予測確率はどうなりますか?

  • ROC_AUC 曲線はカテゴリ数の変化に影響されないため、全体的な AUC 計算結果は大きく変わりません。
  • ダウンサンプリングのバランスによって陽性サンプルの数が偽装的に増加し、分類決定境界が陽性サンプルから遠く離れ、全体の予測確率が大きくなります。

 3.class_weightの考え方は何ですか?

class_weight に対応する単純な重み付け方法は、コストに敏感な学習の最も単純な方法であり、損失に占める小さなクラスのサンプルの割合が大きくなるように重み付けすることを目的としています。

4. 不均衡な学習の原理は何ですか?

現在主流の不均衡学習は、主に分類問題の不均衡に関するものです。いわゆる不均衡な分類とは、サンプルの異なるカテゴリの数がますます異なる場合、モデルがサンプルの大きなカテゴリを予測する際にますます偏りを持つようになり、そのためモデルの分類パフォーマンスがますます悪化する現象を指します。

単にサンプルの不均衡の観点から (分布の変化、小規模なサンプルの学習、分類問題の難しさ、その他の問題は考慮せずに)、不均衡なカテゴリがモデルに影響を与える理由は次のとおりです。

  • 目的関数最適化法、つまり勾配降下法を使用して目的関数を最適化するモデルは不均衡問題の影響を受けやすいのに対し、純粋に貪欲戦略に基づくツリー モデル分割法はこの問題の影響を受けません。
  • 目的関数、ヒンジ損失、クロスエントロピーの使用により、不均衡に対する感度が異なります。

5. アップサンプリング (オーバーサンプリング) とサンプルの生成の違いは何ですか?

アップサンプリングは必ずしもサンプルの生成を意味するわけではありません。たとえば、単純なリピート形式のアップサンプリングには複製によるサンプル生成のプロセスは含まれませんが、サンプルの生成は一種のアップサンプリングである必要があります。

3. モデルの損失関数と評価指標と最適化手法

1. クラスタリング結果の品質をどのように評価するか? シルエット係数とは何ですか?

  • SSE 関数を使用して、クラスタリング結果の品質を評価できます。

  • シルエット係数はサンプルごとに定義され、2 つのスコアで構成されます: a はサンプルと同じクラスター内のすべての点の間の平均距離、b はサンプルと次に近いクラスター内の他のすべての点の間の平均距離です。単一サンプルの場合、シルエット係数は次のようになります。モデルの評価では、全サンプルのシルエット係数の平均値がモデルのクラスタリング効果の評価指標とされます。

2. 精度の限界は何ですか?

  • 分類のしきい値が異なると精度が変化するため、評価が困難になります。
  • サンプルの不均衡の問題には特に敏感で、たとえば、陰性サンプルが 99% を占める場合でも、分類器はすべてのサンプルを陰性サンプルとして予測することで 99% の精度を達成できます。
  • 計算式: 正しく分類されたサンプルの数 / サンプルの総数

3. ROC曲線を描くにはどうすればよいですか? ROC と PRC の類似点と相違点、精度、精度、再現率の定義と欠陥、PR 曲線の描画、モデルの品質を判断するための PR 曲線の使用方法、ROC 曲線の横座標と縦座標意義。

  • TP、FP、TN、および FN は、混同行列のコンポーネントであり、さまざまなカテゴリでの分類モデルのパフォーマンスを測定するために使用されるツールです。TP 真の例は、モデルが陽性カテゴリーのサンプルを陽性カテゴリーとして正しく予測したサンプルの数を表します。FP 偽陽性の例は、モデルが陰性カテゴリーのサンプルを陽性カテゴリーとして誤って予測したサンプルの数を表します。TN 真陰性の例、モデルが負のカテゴリのサンプルを正しく予測したサンプルの数を表します。負のカテゴリのサンプルとして予測された負のカテゴリのサンプルの数。FN の偽の反例は、モデルが正のカテゴリのサンプルを誤って負のカテゴリとして予測したことを示します。
  • 正解率 acc=(TP+TN)/Total、正しく分類されたサンプル数/サンプルの総数。
  • 適合率pre=TP/(TP+FP)の分子は、陽性サンプルとして正しく予測されたサンプルの数であり、分母は、陽性サンプルとして予測されたサンプルの数である。
  • 再現率 = TP/(TP+FN) 分子は正しく予測された陽性サンプルの数、分母はすべてのサンプルの数です。
  • 過失致死率: FP/(FP+TN) 分子は誤って予測された陽性サンプルの数、分母はすべての陰性サンプルの数です。
  • 欠点: ① データ量が極端に不均衡な場合、モデルがすべてのサンプルを主要カテゴリとして予測すると精度が向上します; ② 分類しきい値が 0 に近い場合、モデルはすべてのサンプルを陽性サンプルとして予測します。再現率は 100% に近くなります。分類しきい値が 1 に近い場合、モデルは非常に少数のサンプルを陽性サンプルとして予測し、精度は 100% に近くなります。つまり、再現率と精度率が大きく影響されます。分類しきい値によって決定されます。

  • モデルの PR 曲線は、横軸に再現率、縦軸に適合率をとります。あるモデルの PR 曲線が別のモデルの PR 曲線で完全にカバーされている場合、後者のパフォーマンスは前者よりも優れていると考えることができます。下の図に示すように、IG は AC よりも優れています。

  •  バランスポイントは、上図のITとMZなど、直接比較できない状況を評価するために一般的に使用されます。バランスポイント(BEP)は、P=Rのときの値であり、この値が大きいほど、モデルが適切であることを意味します。パフォーマンスが良くなります。また、F1=2*再現率*精度/(再現率+精度)、F1 値が大きいほど、モデルのパフォーマンスが向上すると考えられます。
  • ROC 曲線は PR 曲線と似ており、縦軸は正解率、横軸は過失致死率です。以下の図の最初の行 ab はすべて元のデータの図であり、左側が ROC 曲線、右側が PR 曲線です。2段目のcdは、ネガティブサンプルを10倍に増やした後の2つの曲線をグラフ化したもので、ROC曲線は基本的に変化していないものの、PR曲線が激しく振動していることがわかります。したがって、正のサンプルと負のサンプルの数が非常にアンバランスであるシナリオでは、ROC 曲線はモデルの品質を反映できるより安定した指標になります。

4. ROC 曲線と PR 曲線の違い、適用可能なシナリオ、およびそれぞれの長所と短所。

  • ROC 曲線は、陽性サンプルと陰性サンプルの比率に影響を受けません。ROC 曲線の縦軸は正解率、横軸は過失致死率であるため、ラベル内のカテゴリの分布を変更すると、正しく予測された陽性サンプル数/陽性サンプルとして予測されたサンプル数は、同時に同じ方向に変化します。時間が経過すると、予測された不正確なネガティブ サンプルの数も同じ方向に変化します。サンプル数/すべてのネガティブ サンプルの数も同じ方向に変化します。つまり、ROC の水平座標と垂直座標の計算は独立しています。は、正のサンプルと負のサンプルに対して独立して計算されます。2 つの座標の計算は相互に影響を与えないため、カテゴリ比 ROC は、変更が発生しても激しく揺れることはありません。
  • PR 曲線の縦軸は適合率、横軸は再現率です。PR 水平座標と垂直座標の計算結果は相互に関連しています。これらはすべて陽性サンプルに対して計算されます。2 つの座標の計算は相互に影響を与えるため、PR 曲線はカテゴリの変化に非常に敏感になります。
  • ROC は、陽性サンプルと陰性サンプルのバイナリ分類モデルの全体的な予測能力に焦点を当てているため、モデルの全体的なパフォーマンスを評価するのに適しています。主に陽性サンプルの予測能力に焦点を当て、予測能力を気にしない場合に適しています。陰性サンプルの能力を考慮すると、PR 曲線の方が適切です。

5. AUCの意味とAUCの計算式は何ですか?

  • AUC は ROC 曲線の下の面積です。

  • AUC の実際的な重要性: 陽性サンプルと陰性サンプルのペアにおける予測結果のランク値の比較 x1 の陽性サンプルと x0 の陰性サンプルがあると仮定します。その後、陽性サンプル * 陰性サンプルのサンプル ペアでは、予測正のサンプルの確率は負のサンプルの確率よりも大きいです。サンプルの予測確率のサンプル番号 z を使用し、z/x0*x1 を使用して AUC を取得します。計算の時間計算量は O(N^2) ですここで、n はサンプルの総数を指します。つまり、AUC は、陽性サンプルと陰性サンプルのペアが任意に選択され、陽性サンプルの予測結果が陰性サンプルの予測結果よりも大きくなる確率を表します。

5. F1、F2...Fnの値とFβの計算方法は何ですか?

βが 1 に等しい場合、Fβ は F1 に等しく、β が n に等しい場合、Fβ は Fn に等しくなります。β は再現率と適合率の相対的な重要性を定義するために使用されます。β が大きいほど再現率は重要になります。β が無限大になる傾向がある場合、Fβ は再現率と等しくなります。小さいほど適合率が重要になります。 β**2 が 0 に近づく傾向がある場合、Fβ は精度と等しくなります。

6. 一般的な損失関数は何ですか?

  • 0-1 損失関数、非凸関数、直接最適化するのは困難。
  • ログロス (クロス エントロピー)、最も一般的に使用される損失関数である多分類損失関数は、ヒンジ損失よりもノイズの影響を受けやすくなっています。ノイズとは、意味のないハード サンプルを指します。
  • クロス エントロピー (バイナリ クロス エントロピー)、二値分類における対数損失の特殊なケースシグモイドを活性化関数として使用する場合、平均二乗誤差損失関数の代わりにクロス エントロピー損失関数がよく使用されます。二乗損失関数の重み更新. 遅い問題は「誤差が大きい場合は重みの更新が速く、誤差が小さい場合は重みの更新が遅い」という良い特性を持っています。

  • 指数関数的損失はノイズに敏感であり、adaboost で使用されてきましたが、他の状況ではほとんど使用されません。

  • ノイズに強いヒンジロス。
  • MSE、MAE、RMSE、MAPE、SMAPE。① このうち、MSE、MAE、RMSE は特にラベル Y の値が大きいサンプルに対する耐性が低く、MAE と RMSE は比較的緩和される; ② MAPE の範囲は [0, +∞) であり、MAPE が 0% であることは、完全なモデル、MAPE が 100% を超えると劣悪なモデルを示し、MAPE に文字が 1 つ増えた MAE になります; ③ 実数値が 0 に等しいデータを持つ場合、分母を 0 で割る問題があり、平滑化が必要です; ④ MAPEラベル Y 値が特に大きいサンプルに対して堅牢である 単一の異常サンプルの損失が実際のラベル (つまり、分母項) で割ることによってスケールされるため、より強力です; 欠陥は、ラベル Y 値を持つサンプルの堅牢性であることです0 に近い値は非常に貧弱であり、少しの偏差により、単一サンプルに対する MAPE の損失計算結果が非常に大きくなります; ⑤ 異常に小さいサンプルに対する MAPE のロバスト性が低いという問題が SMAPE で修正され、計算をより適切に回避できます。実数値 yi が小さいため、mape が大きすぎる結果の問題; 同時に、異常に大きなサンプルに対してもより堅牢になります; ⑥ MAPE と SMAPE はどちらも損失関数として最適化できます。

7. 異常サンプルに対する MSE 平均二乗誤差のロバスト性が低いという問題を解決するにはどうすればよいですか?

  • 異常サンプルが意味のないものである場合には、異常サンプルを平滑化して正常サンプルに加工することができ、異常サンプルが非常にまれである場合には、直接削除することができる。
  • ダブル イレブンの売上など、異常なサンプルに意味があり、モデルでこれらの意味のある異常を考慮する必要がある場合は、モデル側でより表現力の高いモデル、複合モデル、またはグループ モデリングの使用を検討してください。
  • SMAPE など、より堅牢な損失関数を選択します。

8. バイナリ分類にバイナリ クロス エントロピーを使用するのはなぜですか? なぜ MSE を使用しないのでしょうか?

シグモイドがモデル出力を (0, 1) 区間に圧縮するという条件下では、バイナリ クロス エントロピーに従って取得された勾配更新式にはシグモイドの微分項が含まれませんが、MSE に従って取得された勾配更新式には含まれます。

  • MSEを用いて導出される勾配更新量は以下の通りです シグモイドの性質上、zがほとんどの値を取る場合にはσ′(x)が非常に小さくなります(下図の両端がほぼ平らになります)。 η(a− y)σ'(z) は非常に小さいため、パラメータ w と b の更新が非常に遅くなります。

  • バイナリクロスエントロピーから導出される勾配更新式は次のとおりですが、シグモイドの導出項が含まれていないため、この問題は発生しません。

 9. 情報量、情報エントロピー、相対エントロピー (KL 発散)、交差エントロピー、条件付きエントロピー、相互情報量、結合エントロピーはそれぞれ何を表しますか?

  • 情報量: 情報量は、事象の不確実性の度合いを測定するために使用され、不確実性が高いほど情報量が多くなります。不確実性は一般に、事象が発生する確率で定義されます。情報量は、ログに基づくログに基づいています。確率密度関数演算式は次のとおりで、p(x) は離散データの確率または連続データの確率密度関数です。

  •  情報エントロピー: イベント セットの不確実性の程度、つまりイベント セット内のすべてのイベントの不確実な期待を測定します。式は次のとおりです。
  • 相対エントロピー (KL ダイバージェンス): KL ダイバージェンスは、確率統計の観点からは、2 つの確率分布間の差の非対称尺度を表します。KL ダイバージェンスは、情報理論の観点からも導出できます。この観点から、KL ダイバージェンスは次のようになります。相対エントロピーとも呼ばれ、実際には 2 つの確率分布の情報エントロピーの差を表します。KL ダイバージェンスは、離散および連続の両方の確率変数分布を定義するために使用できます。KL は、コサイン距離と同様に、距離の厳密な定義を満たしておらず、非負性と非対称性を持ちます。
  • クロスエントロピー: クロスエントロピーは真値分布の情報エントロピーとKL発散の和であり、真値のエントロピーはモデルθのパラメータとは無関係に決まるため、勾配降下法を導出する際には、クロスエントロピーを最適化し、KL ダイバージェンスを最適化することは同じです。

  • 結合エントロピー: 結合エントロピーは、2 つのイベント セットが結合された後に形成される新しい大きなイベント セットの情報エントロピーを実際に測定します。
  • 相互情報: 相互情報 = 事象集合 X の情報エントロピー - 既知の事象集合 Y の下での事象集合 X の条件付きエントロピー = 事象集合 Y の情報エントロピー - 既知の事象集合 X の下での事象集合 Y の条件付きエントロピー。

10. 2 つの分布の差を測定するにはどうすればよいですか? KL ダイバージェンスとクロスエントロピー損失の違いは何ですか? 関係は何ですか?

  • KL ダイバージェンスと js ダイバージェンスを使用して、2 つの分布間の差異を測定できます。
  • クロスエントロピー = 実ラベル分布の情報エントロピー + 相対エントロピー (KL 発散)

11. 距離の定義は何ですか? 距離の定義を満たさない尺度はどれですか?

  • 定義: 結合された要約において、要素の各ペアが 3 つの距離公理 (正の確実性、対称性、三角不等式) が成立するように実数を一意に決定できる場合、その実数を要素のペア間の距離と呼ぶことができます。 。①正定値: d(x,y)>=0. 不等号は x=y の場合にのみ成り立ちます. サンプル A とサンプル B の距離が 0 の場合、サンプル A とサンプル B は同じサンプルと見なされます。 ② 対称性: d(x,y)=d(y,x)、サンプル A からサンプル B までの距離はサンプル B からサンプル A までの距離に等しい; ③d(x,y)<d(x,z) +d(z ,y)、つまり、サンプル A からサンプル B までの距離は、サンプル A からサンプル C までの距離 + サンプル B からサンプル C までの距離よりも小さくなります。
  •  コサイン距離は三角不等式を満たさず、KL発散は対称性を満たさず、どちらも厳密な意味での距離の定義ではありません。

12. クロスエントロピーの設計思想とは何ですか?

クロス エントロピーの最適化は、KL ダイバージェンスの最適化と同等です。p は真の分布であり、その情報エントロピー H(p) は固定値です。これは、モデルの最適化不可能な定数項です。1、任意の値に置き換えることができます。 Π を含む定数は最適化に影響しません。この種の問題では、クロス エントロピーの最適化と KL 発散の最適化は同等です。多分類問題では、onehot ラベルの場合、クロス エントロピーはモデルの予測結果がラベルの分布と可能な限り一致することを期待するため、この 2 つは完全に一致します。

13. 勾配降下の表現。

  • バッチ勾配降下:
  • 確率的勾配降下法

14. 機械学習における凸最適化問題とは何ですか? 非凸最適化問題とは何ですか? 例を挙げてください。

  • 凸関数の定義は、関数 L(.) が凸関数であるのは、定義域内の任意の 2 点 x、y の和が次の場合に限ります\ラムダ\in [0,1]

この不等式を直感的に説明すると、凸関数面上の任意の 2 点で形成される線分と、凸関数面上の任意の 2 点を結んで形成される線分上のどの点も関数面よりも下にはならないということです。

  • 凸最適化問題には、サポート ベクター マシン (SVM) や線形回帰などの線形モデルが含まれます。
  • 非凸最適化には、低ランク モデル (行列因数分解など)、ディープ ニューラル ネットワーク モデルなどが含まれます。

15. バイアスと分散とは何ですか?

  • 偏差: サイズ m のトレーニング データ セットでトレーニングされたすべてのモデルの出力の平均と、真のモデルの出力の差。バイアスは、通常、学習アルゴリズムに関する誤った仮定によって引き起こされます。たとえば、実際のモデルは 2 次関数ですが、モデルは一次関数であると想定されます。バイアスによって生じる誤差は、通常、トレーニング エラーに反映されます。 。
  • 分散: サイズ m のすべてのサンプリングされたトレーニング データセットでトレーニングされたすべてのモデルの出力の分散。分散は通常、トレーニング サンプルの数 m に比べてモデルの複雑さが高すぎることが原因で発生します。たとえば、トレーニング サンプルが 100 個あり、モデルが次数 200 以下の多項式関数であると仮定します。分散によって生じる誤差は通常、テストに反映されます。誤差はトレーニング誤差の増分に関連します。

16. 特徴選択の方法にはどのようなものがありますか?

フィルタリング、ラップ、埋め込み機能の選択。フィルター特徴選択では、主にモデルに依存しない評価指標を使用して特徴の品質を評価します。計算が速く、簡単かつ迅速に特徴をスクリーニングできます。欠点は、評価指標の計算がモデルから切り離されており、精度が低いことが多いことです。貧しい。

 17. 過学習と過小学習とは何ですか?

  • アンダーフィッティング: モデルはトレーニング中と予測中の両方でパフォーマンスが低下します。
  • 過学習: モデルはトレーニング データを過学習し、トレーニング セットでは良好なパフォーマンスを発揮しますが、テスト セットと新しいデータではパフォーマンスが低下します。

18. 過剰適合と過小適合の問題を解決するにはどうすればよいですか?

  • 過学習: ①データ レベル:過学習を軽減するためにサンプルを増加します; ②特徴レベル:過学習を軽減するために特徴を削減します; ③モデル レベル:l1、l2、ツリーの深さの制限、学習率のスケーリング、早期停止、ドロップアウト、BN などのモデルの複雑さを制限します。正則化、モデル統合。

19. 数値型の特徴を正規化する必要があるのはなぜですか?

勾配降下法によって解かれたモデルは、通常、線形回帰、ロジスティック回帰、サポート ベクター マシン、ニューラル ネットワーク、および勾配降下法の観点に基づくその他のモデルを含めて正規化する必要があります。主な理由は、正規化により計算が大幅に高速化されるためです。勾配降下法、収束速度。同様のサイズのフィーチャは勾配降下法の収束をより適切かつ高速に行うのに役立つため、大きさと範囲の度合いが異なるフィーチャは、フィーチャごとに異なるステップ サイズになります。勾配降下法がよりスムーズかつ高速に収束するようにするには、特徴が同様の次元を共有するようにスケーリングする必要があります。

20. ロジスティック回帰損失関数に 1/N が追加されるのはなぜですか?

1/N (N はサンプル数を表します) を理解するために学習率に統合できます。トーチの損失関数も、損失を平均化し、損失を合計するように設計されています。平均化する場合と合計しない場合の違いは、パラメータにあります。 W の勾配更新量の差は N(サンプル数) 倍です データ量が多い場合、勾配更新量が非常に大きくなり、重みの変化が非常に激しくなり、収束が遅くなります学習率が n 倍に低下しても、得られる効果は同じです。勾配式の前にある乗数の形式の定数項は、勾配降下法の収束に影響を与えず、本質的に学習率の変化として理解できます。

21. ロジスティック回帰で勾配降下法を使用する場合の停止条件は何ですか?

  • 最大反復回数に達しました
  • すべての重みの勾配更新値が事前に設定されたしきい値未満です。
  • 早めにやめてください

22. ロジスティック回帰は線形モデルですか、それとも非線形モデルですか?

  • ロジスティック回帰を線形モデルとして扱います。
  • シグモイド関数に入る前のロジスティック回帰の出力は線形値です。シグモイドはモデル出力を非線形値にマップするため、決定平面から見るとロジスティック回帰は線形モデルとなり、出力から見るとロジスティック回帰は非線形モデルとなります。ただし、線形性と非線形性は一般に決定平面から定義されるため、ロジスティック回帰は依然として線形モデルとみなされます。

23. L0、l1、l2 ノルムはそれぞれ何を意味しますか?

  • L0 ノルム: ベクトル内の非ゼロ要素の数
  • L1ノルム:ベクトル内の各要素の絶対値の合計
  • L2 ノルム: ベクトル内の各要素の二乗を合計し、平方根を求めます。
  • このうち、L0 と L1 はパラメータを疎にすることができますが、L0 ノルムは最適化が難しく、L1 ノルムは L0 ノルムの最適な凸近似であり、L0 ノルム、L2 ノルムよりも最適化と解決が容易です。過学習を防止し、モデルの一般化能力を向上させるだけでなく、最適化ソリューションを安定かつ高速にすることができます。

おすすめ

転載: blog.csdn.net/qq_43687860/article/details/132533483