1教師なし学習の概要
監視データが非常に貴重であることは誰もが知っています。一般的に言えば、データを取得することは簡単ですが、ラベルを取得することはより困難です。したがって、機械学習では教師なし学習が不可欠です。監視されていない大量のデータを有効に活用する方法は、ビジネスのコールドスタートと継続的な反復操作にとって重要です。
教師なし学習は、大きく分けて
- 複雑さを単純化します。含む
- 監視なしのデータをクラスターに結合するクラスター化。クラスター内のデータは類似していますが、クラスター内のデータは類似していません。
- 次元削減、特徴抽出。画像やテキストなどの教師なしデータの特徴を抽出します。PCA、自動エンコーダ、MFなど
- 何よりも、主にすべての種類の生成モデル。
この記事では、主に教師なし線形モデルについて説明します。クラスタリング、PCA、MFなどを含む
2クラスタリング
2.1クラスターの種類
クラスタリングは、特にビジネスがコールドスタートされている場合、実際のビジネスで非常に重要です。意図カテゴリマイニング、ナレッジベースの作成、トピックマイニングなどに使用できます。また、マーキングデータと組み合わせて、マーキングデータのノイズ検出を実現することもできます。次のように、多くのクラスタリングアルゴリズムがあります。
- 分割クラスタリング k-means、k-medoids、k-modes、k-medians、kernel k-means
- 階層的にクラスAgglomerative、divisive、BIRCH、ROCK、 Chameleon、HAC
- 密度クラスタリング DBSCAN、OPTICS、HDBScan
- グリッドクラスタリング STING
- モデルクラスタリング GMM
- グラフクラスタリングスペクトルクラスタリング(スペクトルクラスタリング)
2.2クラスター化アルゴリズムのステップ(k-means、DBScan)
k-meansステップは次のとおりです。
- k値をランダムに初期平均ベクトルとして選択(コールドスタート)
- サンプルを最も近い平均ベクトルクラスターに入れます
- クラスターが構築されたら、平均ベクトルを再計算します
- 反復の第2ステップ
- 2つの反復のクラスターがまったく同じになるまで、停止します
DBScanの手順:
最初に、近傍パラメーター、最小距離、および最小クラスターサイズに基づいてすべての可能なコアを計算します
コアの1つを選択し、コアセットから計算機の密度を持つすべてのサンプルを削除します。
残りのコアセットで2番目のステップを続行します。
コアセットが空の場合、または新しいクラスターを生成できない場合、終了
2.3クラスター評価指標
クラスタリング評価指標は次のように分かれています。sklearnはそれらを実装しています。直接呼び出すだけです。
- 検証セットなし、DBI、DBインデックス
- 検証セット、ランド係数、NMI相互情報量、均質性などがあります。
3 PCA主成分分析
PCA(プリンシペコンポーネント分析)は、次元削減のアイデアを使用して、複数のインジケーターをいくつかのインジケーターに変換します。たとえば、顔認識は、目、鼻、口などの認識に変換されます。これが主成分分析の意味です。
PCAはデータを新しい座標系に変換する線形変換です。データ投影の最初の最大分散は最初の座標(最初の主成分)にあり、2番目に大きい分散は2番目の座標(最初の主成分)にあります2つの主成分)など。PCAの考え方は、データの分散に寄与する機能を維持しながら、次元を減らすことです。これらの機能は、主成分と呼ばれるデータの主要な機能です。
次の図は、1次元空間でのPCAを示しています。データ投影の分散が最大になる方向が最初の主成分であり、これが最も重要な機能です。
PCAを介してデータの主な特性を見つけることができます。7の数字は、3つの主な特性で構成される次の図にあります。
PCAの欠点は次のとおりです。
- 監視されていない、精度が低い。監視ありに基づくLDAはより適切に機能しますが、監視ありデータが必要です。
- 線形モデルでは、キャプチャされたフィーチャはまだ浅すぎます。深いモデルに基づくことができるオートエンコーダーと比較して、特徴抽出機能ははるかに弱いです。
4 MF行列因数分解
マトリックス分解は、基本的なコンポーネントと機能を取得することもできます。マトリックス分解は、SVDを使用して実現できます。MFが抽出した手書き認識の特徴は次のとおりです。ご覧のとおり、基本的なストロークを抽出できます。