R言語教師なし学習:PCA主成分分析の可視化

オリジナルリンク:http://tecdat.cn/?p=9839


概要

教師あり学習では、我々は多くの場合、アクセスすることができますn個の  観測値のp個のの  機能セットと同じ観測値で測定   Y.

教師なし学習はに関連する変数の集合ではありません  Yの方法ここでは、二つの技術に焦点を当てます...

  • 主成分分析:教師付き学習のための方法に先立って、データ可視化ツールまたは他の前処理。
  • クラスタリング:探索データの未知の方法。

教師なし学習の課題

一般的には、教師なし学習はより主観的な学習よりも挑戦し、それはより主観的であるため。単純な客観的な分析が応答を予測するために、例えば、ありません。教師なし学習は、一般的に使用された  探索的データ解析の一部交差検証または認証方式が一般的に受け入れられていないので、得られた結果の精度を評価することは困難です。要するに、手元のプロセス上の理論的な知識や簡単な直感に加えて、我々はできません本当に監督の不在下での点検作業しかし、教師なしの方法は、多くの用途があります:

  • 動作を理解するために癌患者のサブグループを識別することによって。

  • ウェブサイト(特に電子商取引)は、通常、あなたの以前の活動に基づいて製品を推奨しようとします。

  • Netflixの映画の勧告。

主成分分析

関連する多数の変数が表示されたら、私たちは、少数の変数の代わりに、コレクションとしてまとめることができるように、主成分は  一緒に元のコレクションの変動のほとんどを説明します。

主成分分析(PCA)は、主成分を算出する処理、およびデータの理解におけるこれらの成分のその後の使用です。PCAは、データ可視化のためのツールとして使用することができます。

主成分は何ですか

我々はによってセットたいとPの  視覚特性に測定  Nの観察、探索データ解析のための部分。具体的には、我々はデータの低次元表現の形を見つけたい、表現は多くの情報として取り込むことができます。PCAは、これを行うための方法を提供します。PCAはここで、興味深い次元として少量を追求する興味深い変化量によって測定された概念は全体の寸法上の値を観察しました。

また、失われているどのくらいの情報の主要なコンポーネントを用いて測定することができます。この目的のために、我々は、主要な構成要素の各々算出することができる分散により説明割合(PVE)。通常、最高の我々はPVEを視覚化することができるように、図累積として解釈され、各成分の合計差異を説明します。A

使用される主成分の数を決定します

全体的に、我々は完全にデータを理解するために主成分の最小数を使用します。私たちは、これを行うための最善の方法はであると言うことができスクリーグラフデータを視覚化するために、我々は後ほど紹介します。これは、PVEマップのちょうど蓄積です。道のパラメータの最良の調整を選択する、との変化率が低下した見てたときに、そう、主要なコンポーネントを追加し、本当に分散の多くを追加しません。当社の他の学習技術と同様。私たちは、この技術を使用するために、データの理解のいくつかを組み合わせることができます。

最も統計的方法は、時にはより少ないノイズにつながる可能性が主成分予測因子としての使用に適合させることができます。

可視化

私たちは、PCAを行います。

states <- rownames(USArrests)
states
##  [1] "Alabama"        "Alaska"         "Arizona"        "Arkansas"      
##  [5] "California"     "Colorado"       "Connecticut"    "Delaware"      
##  [9] "Florida"        "Georgia"        "Hawaii"         "Idaho"         
## [13] "Illinois"       "Indiana"        "Iowa"           "Kansas"        
## [17] "Kentucky"       "Louisiana"      "Maine"          "Maryland"      
## [21] "Massachusetts"  "Michigan"       "Minnesota"      "Mississippi"   
## [25] "Missouri"       "Montana"        "Nebraska"       "Nevada"        
## [29] "New Hampshire"  "New Jersey"     "New Mexico"     "New York"      
## [33] "North Carolina" "North Dakota"   "Ohio"           "Oklahoma"      
## [37] "Oregon"         "Pennsylvania"   "Rhode Island"   "South Carolina"
## [41] "South Dakota"   "Tennessee"      "Texas"          "Utah"          
## [45] "Vermont"        "Virginia"       "Washington"     "West Virginia" 
## [49] "Wisconsin"      "Wyoming"

列は、データ変数の4セットが含まれています。

names(USArrests)
## [1] "Murder"   "Assault"  "UrbanPop" "Rape"

データについての話をしてみましょう。

kable(summary(USArrests))

 

私たちは、データが異なる平均と分散を持って見ることができます。また、これらの変数は異なるスケールで測定されています。例えば  UrbanPop 、割合として10万人あたりの測定回数。我々は、データを標準化していない場合は、トラブル。

PCAは、主負荷成分を提供するために行われます。

すでに表し、各主成分の内容を決定することができます。例えば、最初の部分は、都市人口と犯罪に関連する情報との違いを説明しているようです。これは、これが最大の違いで、直感的に、最初の部分です。第二の部分は確かに第三及び第四の部分が他の犯罪の違いを示し、都市環境の効果を説明します。

私たちは、主要なコンポーネントの最初のビューを描画することができます。

バイプロット

ここでは、多くの情報を見ることができます。第1の観察軸、PC1軸x PC2とシャフト  y矢印は、彼らが二次元的に移動する方法を示しています。ブラックステータスを示しどのようにPCの方向の各状態変化。例えば、カリフォルニア州は、高い犯罪率、だけでなく、市内で最も人口の多い国の1の両方を持っています。

この  $sdev 各出力コンポーネントのプロパティ標準偏差。各成分は、分散から算出することができる正方形の四角で説明しました:

## [1] 2.4802 0.9898 0.3566 0.1734

次に、説明の各主成分の分散の割合を計算するために、まず、その分散で割りました。

## [1] 0.62006 0.24744 0.08914 0.04336

ここでは、最初のPCは、データの62%について説明参照、第二PCは、データの24%について説明します。また、この情報を引き出すことができます。

スクリープロット

par(mfrow=c(1,2))

plot(pve, xlab='Principal Component', 
     ylab='Proportion of Variance Explained', 
     ylim=c(0,1), 
     type='b')

plot(cumsum(pve), xlab='Principal Component', 
     ylab='Cumuative Proportion of Variance Explained', 
     ylim=c(0,1), 
     type='b')

 

ご質問があれば、以下のコメントを残してください。 

 

 

ビッグデータの部族  -中国のプロのサードパーティのデータ・サービス・プロバイダは、ワンストップのデータマイニングや統計解析コンサルティングサービスを提供するために、カスタマイズされました

コンサルティングサービス統計解析やデータマイニング:y0.cn/teradat(コンサルティングサービスは、お問い合わせください公式サイトの顧客サービスを

私にメッセージを送信するためにはここをクリックQQ:3025393450

 

QQ交換基:186 388 004 

[サービス]シーン  

研究;会社アウトソーシング、オンラインとオフラインの1のトレーニング、データ爬虫類の収集、学術研究、報告書作成、市場調査。

[トライブ]ビッグデータは、カスタマイズ提供するワンストップのデータマイニングや統計解析コンサルティング

 

データドライの詳細については、マイクロチャネル公衆番号へようこそ注意!
 
 

私たちの選択科目へようこそ採掘が知っているだろうR言語データ解析をコースを!

おすすめ

転載: www.cnblogs.com/tecdat/p/12099458.html