ディープラーニング
- 教師あり学習
- 教師なし学習(教師なし学習)
- 用語
-
- 固有値
- 特徴ベクトル
- 特徴量エンジニアリング
- 機能のスケーリング
- シグモド関数
- 決定境界
- 活性化関数
- 過学習/過小学習
- ロジスティック回帰アルゴリズム
- マルチクラス (mutil-classes) 分類とマルチラベル (multi-label) 分類
- 畳み込み層
- 順伝播アルゴリズム (順伝播)
- バックプロパゲーションアルゴリズム (バックプロパゲーション)
- 演算グラフ
- トレーニング セット/検証セット/テスト セット
- 高いバイアス/そして高い分散
- 正則化項 (ラムダ)
- ベースラインパフォーマンスレベル
- 学習曲線
- データ拡張
- 転移学習
- 適合率/再現率 (適合率/再現率)
- 調和平均
- エントロピ
- 情報の獲得
- ワンホットエンコーディング
- 交換を伴うサンプリング
- ランダムフォレストアルゴリズム (ランダムフォレストアルゴリズム)
- クラスタリング
- K 平均法アルゴリズム (K 平均法アルゴリズム)
- Anomaly Detectionアルゴリズム(異常検知)
- おすすめシステム
- 協調フィルタリング(協調フィルタリングアルゴリズム)
- 平均正規化
教師あり学習
コンピューターは例によって学習します。過去のデータから学習し、その学習を現在のデータに適用して将来のイベントを予測します。この場合、入力データと予想される出力データの両方が将来のイベントの予測に役立ちます。
教師あり学習の分類
- 回帰 (回帰) モデル
一連のトレーニング セットを通じて、新しいデータを予測するように回帰アルゴリズムがトレーニングされます。一般的な回帰アルゴリズムは、線形回帰、ロジスティック回帰、多項式回帰、リッジ回帰です。 - 分類モデル 分類
モデルは、データのカテゴリを予測するために使用される、「はい」や「いいえ」などの出力変数を分類できます。スパム検出、感情分析など。
実際のアプリケーションには次のようなものがあります。
テキスト分類
- スパム検出
- 天気予報
- 現在の市場価格に基づいて住宅価格を予測する
- 株価予測など。
- 顔認識
- 署名の認識
- 顧客発見
教師なし学習(教師なし学習)
これは本質的に統計的手法であり、ラベルのないデータ内の潜在的な構造を発見できるトレーニング手法です。特徴は主に3つあります。 1. 明確な目的がない。2. データにラベルを付ける必要はありません。3. 効果は数値化できません。
教師なし学習のアルゴリズム
- クラスタリングは
単に自動分類の方法です。教師あり学習では、それぞれの分類が何であるかを正確に知っていますが、クラスタリングはそうではありません。クラスタリング後のいくつかの分類がそれぞれ何を意味するのかはわかりません。 - 次元削減 次元
削減は圧縮によく似ています。これは、関連する構造を可能な限り維持しながら、データの複雑さを軽減するためです。
教師なし学習の使用シナリオ
- 異常が見つかりました
「マネーロンダリング」を必要とする違法行為が数多くありますが、このマネーロンダリングは一般ユーザーのそれとは異なりますが、何が違うのでしょうか?
人為的な分析がコストがかかり複雑な場合は、これらの行動の特徴に基づいてユーザーを分類することで、異常な行動を持つユーザーを簡単に見つけて、その行動がどこが異なるか、およびユーザーが範囲に属するかどうかを詳細に分析できます。違法なマネーロンダリング。
教師なし学習により、行動を迅速に分類できます。分類が何を意味するかはわかりませんが、この分類により、正常なユーザーを迅速に除外し、より的を絞った方法で異常な行動を詳細に分析することができます。
- ユーザーのセグメンテーション
これは広告プラットフォームにとって非常に意味があり、ユーザーを性別、年齢、地理的位置などの側面に基づいてセグメント化するだけでなく、行動に基づいてユーザーを分類することもできます。ユーザーにパーソナライズされたコンテンツを推奨するため。
- レコメンドシステム
淘宝天モールのレコメンドシステムは、ユーザーの購買行動や閲覧行動に応じて関連商品を推薦し、一部の商品は教師なし学習のクラスタリングを通じて推薦されます。
用語
固有値
すべてのデータには独自の属性があり、この固有の属性が固有値です。
特徴ベクトル
固有値のベクトル。
特徴量エンジニアリング
直感を使用して、元の固有値を変換または組み合わせることにより、新しい固有値を設計します。
長さと幅に応じて、面積の面積が設計されます。
機能のスケーリング
一部の属性の値が大きすぎたり小さすぎたりすると、勾配の計算に影響を与えるため、ズームインしたり考えたりして、特徴量を適切な位置に修正する必要があります。
シグモド関数
この機能により出力値を0~1の間で制御することができます。
決定境界
線形および非線形の決定境界があり、これらは sigmod 関数から取得できます。
活性化関数
過学習/過小学習
過学習とは、トレーニング セットによってトレーニングされたモデルが実際のデータに適合しすぎて、推定値が不正確になることです。
過学習の問題を解決するにはどうすればよいでしょうか?
-
より多くのトレーニングセットを用意する
-
特徴量が多すぎるが、トレーニング セットが少ない (対応する特徴量を削除し、大きな特徴量の影響を軽減する)
-
正則化 (値が大きく逸脱しないようにするために、すべての w 値にペナルティを課します)
ロジスティック回帰アルゴリズム
- ロジスティック回帰関数
- ロジスティック回帰のコスト関数 (クロスエントロピーを使用して記述)、aj が 1 に近づくほど、推定コストは小さくなります。
- 左側は単純な二値分類関数、右側は多分類の回帰問題を解く Siftmax 関数です。
マルチクラス (mutil-classes) 分類とマルチラベル (multi-label) 分類
マルチクラス分類は数値の識別に似ており、0 ~ 9 の数値のみを指定でき、出力結果は数値になります。
マルチラベル分類は複数のラベルを識別する問題であり、出力はベクトルです。
畳み込み層
各ニューロンは、畳み込み層と呼ばれる入力画像領域の層のみを調べます。
畳み込みニューラル ネットワーク:
順伝播アルゴリズム (順伝播)
w と b を仮定して値を入力すると、段階的に計算が実行されます。
バックプロパゲーションアルゴリズム (バックプロパゲーション)
順伝播アルゴリズムの値に従って、偏導関数は後ろから前に計算されます。
演算グラフ
計算プロセスを示すイメージ
トレーニング セット/検証セット/テスト セット
トレーニング セット: w、b のパラメータをトレーニングするために使用されます。w、bを生成します。
相互検証セット、開発セット、検証セット: 特定のモデルを選択するために使用されます。dを生成します。
テスト セット: 一般化評価機能が必要ですが、パラメーターの生成には参加できません。
高いバイアス/そして高い分散
左側の画像は高いバイアス、右側の画像は高い分散です。
- 偏差が高いと、トレーニング セット内のデータ量が増加するだけでなく、役に立ちません。!
- 分散が大きいとトレーニング セット内のデータ量が増加し、Jcv が減少する可能性があります。!!
高い分散と高いバイアスの回避策:
どうやって
正則化項 (ラムダ)
正則化ではパラメータの重みを調整できるため、フィットの効果に影響します。
ラムダが大きくなるほど、アルゴリズムは二乗項を小さく保とうとしますが、正則化項の重みが大きくなり、トレーニング セットの実際のパフォーマンスにあまり注意が払われなくなります。(アンダーフィッティング); ラムダが小さいほど、オーバーフィッティングが大きくなります。
ベースラインパフォーマンスレベル
学習アルゴリズムが最終的に達成するエラー レベルを期待するのは合理的です。このタスクに関する人間のパフォーマンスを測定したり、他の同様のアルゴリズムを比較したりして、ベースラインのパフォーマンス レベルを確立するのが一般的です。
学習曲線
トレーニング セットが大きくなると、トレーニング セットの損失関数も大きくなるのはなぜですか?
右の図を例に挙げると、データが増えるほど、二次関数がデータに適合することが難しくなります。データが 1 つだけの場合は完全に適合できますが、データの数が増えると、二次関数はデータに適合します。 、損失関数は大きくなります。
検証セットの損失関数がどんどん小さくなっているのはなぜですか?
トレーニング セットが大きいほど正確になる可能性が高くなるため、検証セットの損失関数は小さくなります。
データ拡張
既存のデータを変更する(画像のスケーリング、反転、遠近法変換、歪み)、またはオーディオ変換(背景ノイズの追加)を新しいサンプルに変更します。これらの方法により、より多くのデータを取得できます。
転移学習
他の人がトレーニングしたモデルとネットワークを完全にコピーします (パラメーターを含みますが、結果が異なるため出力層のパラメーターは含みません)。出力 lunit が異なるため、w5、b5 は使用できないため、最初のものを使用します。 4 セットの w、b 5 番目のセットをトレーニングするか、単にネットワークを複製してパラメータを自分でトレーニングします。
方法 1: トレーニング セットが小さく、データが十分ではない状況に適用できます。
方法 2: 多数のトレーニング セットを使用する場合は、データ量が十分であるため、自分でトレーニングする方が良いです。
転移学習の手順:
適合率/再現率 (適合率/再現率)
(希少疾患の予測)
精度: 次の表に示すように、予測された希少疾患の精度: (高いほど良い)
再現率(): 全病人から検出される確率。高いほど良いです。
適合率と再現率の関係を評価する方法:
適合率が高い: True に対する
信頼性が高い 再現率が高い: False に対する信頼性が高い
調和平均
この平均値は、より小さい平均値に傾きます。
エントロピ
サンプルのカオスの度合いを示します。エントロピーが大きいほど、サンプルはよりカオスで不純になります。
情報の獲得
P96
エントロピーの減少/不純物の減少/純度の増加は、情報利得と呼ばれます。
デシジョン ツリーを構築する際、特徴の順序はどのように選択すればよいでしょうか? ツリーの構築をやめるにはどうすればよいですか?
情報利得の大きさに応じて、情報利得が大きいほどこの特徴が優先的に選択され、特に情報利得が小さい場合にはツリーは構築されない。
次の図は決定木を構築するための分類問題であり、優先順位は 0.28 を構築することです。
次の図は、回帰問題に対するデシジョン ツリーを一般化したものです。
ワンホットエンコーディング
決定木に適したエンコーディング。特徴量を 0、1 に設定して決定番号を構築します。
交換を伴うサンプリング
置換を伴うランダムサンプリング。
ランダムフォレストアルゴリズム (ランダムフォレストアルゴリズム)
特徴量が n 個ある場合、k = ルートサイン n 個の特徴量がランダムに選択され、k 個の特徴量に基づいて決定木モデルが構築され、複数の決定木モデルが構築されます。これをランダム フォレストと呼びます。
クラスタリング
クラスタリングは教師なしアルゴリズムに属し、その目的は不規則なデータの隠れたつながりを見つけてデータを分類することですが、分類結果が正しいかどうかはわかりません。
K 平均法アルゴリズム (K 平均法アルゴリズム)
代表的なクラスタリング アルゴリズムの 1 つであり、アルゴリズムの主な考え方は次のとおりです:
1. k 個のクラスターの重心として k 点をランダムに選択し、各データから重心までの距離をそれぞれ計算します
。それらの重心は、再グループ化に基づいて、各クラスターの新しい重心を計算します。
3. 上記 2 つの手順を繰り返します。
K 平均法のコスト関数は歪み関数とも呼ばれます。
エルボー法:適切なクラスターを選択する方法
Anomaly Detectionアルゴリズム(異常検知)
正常なデータはデータセットによって一定の範囲内に管理されており、この範囲を超えたデータは問題を引き起こす可能性があるため、これに注意してデータをより詳細に検査する必要があります。
下図に示すように、緑色のデータは異常なデータであり、特別な検出が必要です。
Gussian 分布を使用して異常検出システムを構築します。
異常検出アルゴリズムを評価する方法:
おすすめシステム
レコメンデーション システム: ショッピング ウェブサイトや映画ウェブサイトのレコメンド インターフェイスに似ています。
レコメンデーション システムを使用してパラメーターを予測するにはどうすればよいですか?
レコメンデーション システムのシングルユーザーのコスト関数:
レコメンデーション システムのすべてのユーザーの合計のコスト関数:
協調フィルタリング(協調フィルタリングアルゴリズム)
複数のユーザーからデータを収集し、ユーザー間のこのコラボレーションにより、将来の予測、さらには他のユーザーの評価を予測することができます。
既知のデータを使用して、推奨システムの w、b、x を一緒に学習します。
以下はコスト関数です。
このときの勾配降下法: x もパラメータです。
回帰問題をバイナリ ラベルの分類問題に拡張します。