相関係数R言語---

相関係数は、量的変数の間の関係について説明するために使用することができる
シンボルの相関を、その値の方向との関係は、大小関係がどのように強く示し示し
概して弱い相関の約0.3、相関は0.3と0.7の間であると考えられています、 0.7以上であるの強い相関
関係は、結果を間単に代表返さない線形相関が関連しない場合、線形相関は、以下に記載されています

関連付けられた種類
の言語の様々なピアソン相関係数、スピアマンの相関係数、相関係数ケンダル、部分的な相関係数、相関係数と相関係数polychoricマルチシリーズを含む相関係数を計算することができるR。
図1は、ピアソン、スピアマンとケンドール相関
ピアソンの積率相関係数は、二つの量的変数間の線形相関の程度の尺度である
スピアマン順位相関係数は、グレード順序変数間の相関の程度の尺度である
Kenddallのタウ非相関係数パラメータであります順位相関対策

ピアソン、ケンダルとの間の差のスピアマン相関
ピアソンの積率相関係数を用いて相関線形連続する二つの変数の間に存在する、
(あまりにも正二変量分布、線形相関)積率相関分析ストリップを使用して満足されていない、使用スピアマンの順位相関は、変数の関係との間の関連の変更に記載さ
、元の変数の分布が必要とされないにも順位相関係数、2つの変数を使用して、線形相関分析のためのランクサイズとして知られるスピアマンの相関係数を、ノンパラメトリック統計的方法、
ピアソンに対して関連する用途は広い以上、服従のためのピアソン相関係数データは、スピアマンの相関係数を算出することができなければならないが、その効果は低くなる
(スピアマンは、元の変数の値の大きさを無視するためにのみ全体可変データ位置順位この値を値)
指標の関連性を反映するカテゴリ変数のKendallのタウB順位相関係数は二つのカテゴリ変数に適用される規則的な分類であります

1つの連続変数、もし等しくないピッチ測定未知の分布ので-離散変数は、順位相関の完全なレベルを使用するために利用可能な順位相関ピアソン相関を使用することもできる
情報が対象または二変量正規母集団分布でない場合、不明または生データであり、2それはレベルすることができ、それが適切なスピアマンまたはケンドール相関である
ケンドールの順位相関係数を用いて適切なが小さすぎて、関連する結論を引き出すことは可能性がある場合、3。一般的なケースの場合、デフォルトのデータの対象があまりにもピアソン分析によって配布されます

関連の研究方法は、データに応じて二つの変数スピアマンの順位との相関関係です。それは、それはまた、「レベル差計数法」として知られている計算するレベルの2つのそれぞれのペアワイズログランクとの間の差に基づいて
データを必要スピアマン条件であれば2として、厳密積率相関係数ではありません観測データからの情報、又はレベルデータを等級変数対の観測値は、連続的な変数に変換
関係なく二つの変数、どのサンプルサイズの全体的な分布パターンの、スピアマンに使用することができますリサーチ。
Kendallの相関係数
としても知られている一致係数のケンダル(ケンダル)W係数、複数の列の相関のレベル可変度への道です。この方法のデータを収集等級の適用可能な方法、一般に、
そのようなKを判定する(被験者)がNのものの断片、または裁判官(被験者)を評価可能にするようにK倍Nものの部分を評価しました。物体のN個のそれぞれの等級評価階層順を排出するための方法であって、
サイドバイサイドのレベルならば序数1の最小レベル、Nが最大であるが、一般的なレベルは等しく、例えば、二つの通常呼ば並置、占有すべきですまず、彼らは1,2名を占めるべきで
、そうそれらのレベルは、1.5であるべきであり、最初の、二つの平行な第二、第三の3つの平行な場合、それらは、対応するレベルであるべきです2.5 3の平均値である2.5,2.5,5,5,5、5 4,5,6平均。
また、一貫性係数として知られているケンダル(ケンダル)U因子は、複数の列の相関のレベル可変度への道です。
この方法はまた、Kの判断(被験者)はN、物事の断片、または裁判官(被験者)K回アセスメントN事データを取得した作品を持っていると評価した作りに適用可能である、
しかし、この方法の二重評価は、すべてのことを評価しますペアワイズ比較は、以下の表に示す評価結果であるとN最初の評価
入力データ(斜線部分は何であってもよい)表スペースビット:iがJよりも小さい場合に1を覚え、J iは差が0を獲得よりも小さい場合、同じ心0.5の両方。このテーブルには、Kチャンの合計を取得します
Kこれらのシートは、テーブルを積み上げ、計算されたデータとして最大蓄積最後の位置に対応するデータが、データはγijと呼びます。

計算3つの相関係数
COR()関数3つの相関係数を算出することができる
CoVの()関数は、共分散を計算するために使用することができる
フォーマットにCOR()関数
COR(X、使用=、メソッド =)
パラメータxが行列を表し、またはデータブロックの
データが欠落している方法を指定するパラメータを使用。all.obsに別の方法(ミッシングデータが存在しないと仮定-データが欠落したときにエラーが発生します)は、
すべて(欠落データの顔、相関係数の結果が欠落に設定される)、complete.obs(ライン削除)、及びpairwise.complete.obs(ペア削除)
指定されたタイプのメソッド相関係数、別の種類のピアソン、スピアマンケンドールまたは
使用のためのデフォルトパラメータ=「すべて」と方法=「ピアソン」
の例

> #使用的数据为state.x77表中的数据
> states <- state.x77[,1:6]
> options(digits = 2)
> #计算协方差
> cov(states)
           Population Income Illiteracy Life Exp Murder HS Grad
Population   19931684 571230     292.87  -407.84 5663.5 -3551.5
Income         571230 377573    -163.70   280.66 -521.9  3076.8
Illiteracy        293   -164       0.37    -0.48    1.6    -3.2
Life Exp         -408    281      -0.48     1.80   -3.9     6.3
Murder           5664   -522       1.58    -3.87   13.6   -14.5
HS Grad         -3552   3077      -3.24     6.31  -14.5    65.2
> #计算相关系数
> cor(states)
           Population Income Illiteracy Life Exp Murder HS Grad
Population      1.000   0.21       0.11   -0.068   0.34  -0.098
Income          0.208   1.00      -0.44    0.340  -0.23   0.620
Illiteracy      0.108  -0.44       1.00   -0.588   0.70  -0.657
Life Exp       -0.068   0.34      -0.59    1.000  -0.78   0.582
Murder          0.344  -0.23       0.70   -0.781   1.00  -0.488
HS Grad        -0.098   0.62      -0.66    0.582  -0.49   1.000
> #计算Spearman的相关系数
> cor(states,method = "spearman")
           Population Income Illiteracy Life Exp Murder HS Grad
Population       1.00   0.12       0.31    -0.10   0.35   -0.38
Income           0.12   1.00      -0.31     0.32  -0.22    0.51
Illiteracy       0.31  -0.31       1.00    -0.56   0.67   -0.65
Life Exp        -0.10   0.32      -0.56     1.00  -0.78    0.52
Murder           0.35  -0.22       0.67    -0.78   1.00   -0.44
HS Grad         -0.38   0.51      -0.65     0.52  -0.44    1.00

上記の結果は、この理由のために、相関係数がゼロと有意に異なるかどうかを示すものではないことに注意してくださいは、相対的な数との関係の重要テストする必要があります

部分相関
部分相関手段の制御の一つ以上の量的変数、他の二つの量的変数の関係
多変量解析、変数および他の変数の間の関係の場合に、またあってもよいです三つの変数の影響
このような肥料や歩留まりの量との関係としては、また天候の影響を受ける可能性があり、影響は肥沃な土地の対象となります。
あなたは、単にそれらの間の相関係数を考慮すれば、それは本当に彼らの関係の程度を反映することはできません。
気象条件の場合に考慮され、肥沃な土地の程度は相関係数と肥料生産がよりリアルになる傾向がある、同じままでなければならず、
ここでは相関係数は、偏相関係数です。
部分相関計算
PCOR部分相関を計算するGGMパッケージ()関数、フォーマット
PCOR(U、S、)は
、パラメータUがベクトル値であり、最初の二つの添え字は、残りの値は、相関係数を算出する表します可変条件(すなわち、変数の影響を排除するために)、インデックス
パラメータs変数の共分散として
、例えば

> library(ggm)
> colnames(states)
[1] "Population" "Income"     "Illiteracy" "Life Exp"   "Murder"     "HS Grad"   
> pcor(c(1,5,2,3,6),cov(states))
[1] 0.35
> 

関連する他の種類の
polycorパッケージHETCOR()関数は、数値変数ピアソンの積率相関係数を含む、混合物の相関行列を算出することができる
数値変数および順序変数の系列間の相関の倍数係数、順序変数polychoric二値変数との間の相関の間の相関の四分位数係数

図2に示すように、試験の有意な相関
関係の重要性は、2つ(またはそれ以上)の変数間の統計的関係を意味しているPのための重要な、一般的な要件<0.05
(0.05かかわらず、有意なpことなくどのように強い相関係数)>無意味な議論。
単一ピアソン、スピアマンの相関係数の関数cor.test()関数を使用し、ケンドールを試験。
機能cor.test()フォーマットを使用する
cor.test(X、Y、代替= 、=法)
yは変数試験する相関表すパラメータは、X、
両側検定のための代替を指定するために使用されるか、または片側検定(値はtwo.sideあり、以下、それ以上)の
タイプを指定するために関連する計算のための方法(「ピアソン、ケンダル、スピアマン)

それは全体的な相関係数の試験を想定した場合0未満、代替=「未満」の使用であり、
それが0よりも全体的な相関係数より大きいための研究を想定した場合、「大きな」代替=を使用する
全体的な相関係数の研究仮説としては0ではありません代替=(デフォルト設定)「two.side」使用時
cor.test注()関数のテストは、変数の数との相関関係の一回限りの計算としてではないCORとして()関数の間の相関であることができます相関係数行列の係数生成

>cor.test(states[,3],states[,5])

	Pearson's product-moment correlation

data:  states[, 3] and states[, 5]
t = 7, df = 48, p-value = 1e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.53 0.82
sample estimates:
cor 
0.7 

> cor(states[,3],states[,5])
[1] 0.7
#cor.test(states[,3],states[,5])返回的p-value=1e-08
#如果总体的相关度为0的话,表示预计在一千万次机会(即p=1e-08)中只有一次的机会见到0.7这样大的相关样本相关度
#0.7为样本的相关度

心理パッケージ提供corr.test()関数は、ワンタイム多くの相関係数行列の行列と有意のレベルを生成することができる

> states <- state.x77[,1:6]
> library(psych)
Warning message:
程辑包‘psych’是用R版本3.6.1 来建造的 
> corr.test(states,use="complete")
Call:corr.test(x = states, use = "complete")
Correlation matrix 
           Population Income Illiteracy Life Exp Murder HS Grad
Population       1.00   0.21       0.11    -0.07   0.34   -0.10
Income           0.21   1.00      -0.44     0.34  -0.23    0.62
Illiteracy       0.11  -0.44       1.00    -0.59   0.70   -0.66
Life Exp        -0.07   0.34      -0.59     1.00  -0.78    0.58
Murder           0.34  -0.23       0.70    -0.78   1.00   -0.49
HS Grad         -0.10   0.62      -0.66     0.58  -0.49    1.00
Sample Size 
[1] 50
Probability values (Entries above the diagonal are adjusted for multiple tests.) 
           Population Income Illiteracy Life Exp Murder HS Grad
Population       0.00   0.59       1.00      1.0   0.10       1
Income           0.15   0.00       0.01      0.1   0.54       0
Illiteracy       0.46   0.00       0.00      0.0   0.00       0
Life Exp         0.64   0.02       0.00      0.0   0.00       0
Murder           0.01   0.11       0.00      0.0   0.00       0
HS Grad          0.50   0.00       0.00      0.0   0.00       0

 To see confidence intervals of the correlations, print with the short=FALSE option
> head(states)
           Population Income Illiteracy Life Exp Murder HS Grad
Alabama          3615   3624        2.1       69   15.1      41
Alaska            365   6315        1.5       69   11.3      67
Arizona          2212   4530        1.8       71    7.8      58
Arkansas         2110   3378        1.9       71   10.1      40
California      21198   5114        1.1       72   10.3      63
Colorado         2541   4884        0.7       72    6.8      64

他の重要な試験
有意差検定部分相関係数
多変量正規性の仮定の下では、pcor.test心理パッケージ()関数は、2つの変数、1つのまたは複数の追加の制御変数間の試験に使用することができます独立
pcor.test()フォーマットである
pcor.test(R、Q、n)は
パラメータrは、部分相関係数を取得するPCOR()関数であり、qは(数字の位置で)制御される変数の数であり、nがサンプルサイズ
:心理パッケージR.TEST()関数は、この関数は、試験に用いることができる有用な有意差検定法の数提供
2に基づいて、有意な独立した二つの違い場合、いくつかの相関係数、相関係数有意性を共有変数場合に有意に得られた差に依存する相関係数
二つの別個の非相関係数の差が大きく、完全に異なる変数に基づいて取得した場合

四、t検定
試験で一般的なものは、二つのグループの挙動を比較したです。
かどうか、いくつかの既存の薬剤を使用している患者よりも、新たな薬物療法を受けている患者は、改善の大きな度合いを示しましたか?以下、不良品以外の別の製造工程の製造工程かどうか。
このような二値変数(カテゴリ変数の2種類のみ)変数(この変数は、変数の結果である)連続変数、結果変数正規分布を仮定しているされています。あなたは、t検定の有意差検定を使用することができる
ため、仮定のt検定に、通常その正常とテストt検定を行う前に、一般的に分布しています。
データが正規分布法と一致していることを確認してください
1、あなたは逆ベルかどうかを確認するためにヒストグラムを描くことができます。
図2に示すように、図は、QQをペイント、それが近い正規分布である、場合形状は、主対角線を結ぶ線であるか否かを観察し
、3 hapiro.test、このスキームは、試料の比較的少量(N <20)に適しています使用する際に
二つの独立したサンプルのt検定のための1つを(確立が重要でない場合に等しい母集団平均ルック仮説の2つのグループは、保持していると仮定している)2つの集団の等しい平均の仮説を試験するために使用することができます。
2つの独立した時刻データとピットが正常な集団であることが想定されます。
t検定形式は
t.test(Y〜X、データ)
Yパラメータは数値変数であり、xは二値変数である
t検定フォーマットがあってもよい
t.test(Y1、Y2)
パラメータY1及び数値でY2データフレームまたはこれらの変数を含むマトリックスとしてベクター(すなわち、各グループの結果変数)オプションのパラメータデータ値
他のほとんどの統計ソフトウェアが異なるが、ここで、不等分散を仮定し、デフォルトのt検定。そして、補正のウェールズの自由使用。パラメータvar.cqualに添加することができる= TRUEは、等分散を仮定し

> library(MASS)
> t.test(Prob~So,data = UScrime)

	Welch Two Sample t-test

data:  Prob by So
t = -4, df = 25, p-value = 7e-04
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.039 -0.012
sample estimates:
mean in group 0 mean in group 1 
          0.039           0.064 
#此时返回的p值小于0.001可以拒绝原假设
#注意由于结果是一个比例值,可以在执行t检验之前尝试对其进行正态化变换

2、非独立のt検定のサンプル
例は、年上の男性よりも若い男性の失業率が高い失業率かどうかをテストし、この場合のデータの二組は独立していません。あなたは若い男性と年上の男性の失業率との間に何の関係も言うことはできません
二つのグループの間で観測された相関は、あなたが非独立した設計、フロントとリア側の設計のグループを取得または側面を繰り返すこと非依存しない設計の同じ量を生産する際にグループ
群間の正規分布の違いを想定非独立サンプルt検定の。
フォーマットは
t.test(Y1、Y2、=ペア TRUE)
前記非数値ベクトルの二つの独立したグループのY1及びY2。

> library(MASS)
> sapply(UScrime[c("U1","U2")],function(x)(c(mean=mean(x),sd=sd(x))))
     U1   U2
mean 95 34.0
sd   18  8.4
> t.test(UScrime$U1,UScrime$U2,paired = TRUE)

	Paired t-test

data:  UScrime$U1 and UScrime$U2
t = 32, df = 46, p-value <2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 58 65
sample estimates:
mean of the differences 
                     61 

以上のT-テスト基準のかもしれR t検定言語およびR T言語式詳細なテスト
つ以上のグループの場合
、あなたが二つ以上のグループ間の比較をしたい場合。それは、データを仮定することができる場合に得られた正常な母集団のサンプルから独立しています。分散の使用分析(ANOVA)

ファイブノンパラメトリックテスト群差
t検定またはANOVAのデータは、仮定を満たすことができない場合は、パラメータは、ノンパラメトリック法を用いてもよいです。それは本質的に、秩序に深刻な結果変数バイアスまたは現在の関係は、ある場合たとえば、あなたはノンパラメトリック検定の群間の差を使用することができる
合理的な仮定のt検定は、有効性パラメータが強い試験したとき、(容易に検出することの違いが存在します)。むしろ、(例えば、レベル序データのような)非常に不合理な仮定がより適している場合、パラメトリック試験より
1、二つのグループを比較した
データの2つの独立したセットが、あなたはWilcoxonの順位和検定を使用することができる場合(よく知られている名前は、マン・ホイットニーのU検定であります)フォーマットは
wilcox.test(Y〜X、データ)
又は
wilcox.test(Y1、Y2)
状態投獄率の南北約回答の質問にマン・ホイットニーのU検定を用いた例

> with(UScrime,by(Prob,So,median))
So: 0
[1] 0.038
------------------------------------------------------------------- 
So: 1
[1] 0.056
> wilcox.test(Prob~So,data=UScrime)

	Wilcoxon rank sum test

data:  Prob by So
W = 81, p-value = 8e-05
alternative hypothesis: true location shift is not equal to 0

観点から返されるP値は拒否され、同じ非南部の州南部の州投獄率仮説(p <0.001)ことができる
独立したサンプルの非ためのノンパラメトリック試験

 sapply(UScrime[c("U1","U2")],median)
U1 U2 
92 34 
> with(UScrime,wilcox.test(U1,U2,paired = TRUE))

	Wilcoxon signed rank test with continuity correction

data:  U1 and U2
V = 1128, p-value = 2e-09
alternative hypothesis: true location shift is not equal to 0

つ以上の組の比較
結果は、ノンパラメトリック法は、群間の差を評価するために使用され得る、仮定変数ANOVAデザインを満たさない場合
フリードマンテストので、各群から独立していない場合、各基は、独立にクラスカル・ワリス検定を使用することができる場合に
クラスカル・ワリステストコール形式がある:
kruskal.test(Y〜、データ)
形式フリードマンテストである
friedman.test(Y〜| B、データ)
yは、数値結果変数であり、パケットは、Bが、可変です観測変数のマッチングブロックを識別するために使用される
クラスカル・ワリス検定例回答文盲を使用して問題を

> #首先需要将各地区的名称添加到数据集中。这些信息包含在随R基础安装分发的state.region数据集中
> states <- data.frame(state.region,state.x77)
> head(states)
           state.region Population Income Illiteracy Life.Exp Murder HS.Grad Frost   Area
Alabama           South       3615   3624        2.1       69   15.1      41    20  50708
Alaska             West        365   6315        1.5       69   11.3      67   152 566432
Arizona            West       2212   4530        1.8       71    7.8      58    15 113417
Arkansas          South       2110   3378        1.9       71   10.1      40    65  51945
California         West      21198   5114        1.1       72   10.3      63    20 156361
Colorado           West       2541   4884        0.7       72    6.8      64   166 103766
> kruskal.test(Illiteracy~state.region,data=states)

	Kruskal-Wallis rank sum test

data:  Illiteracy by state.region
Kruskal-Wallis chi-squared = 23, df = 3, p-value = 5e-05

この例では差はないの帰無仮説を否定するだろうが、テストは他の地域とは大きく異なっている分野を教えてくれていない
1、あなたは、2つのデータセットの各時間を比較するWilcoxon検定を使用することができます。
図2に示すように、同時に複数のグループWMC()関数の使用、そのウィルコクソン試験群、p.adjによって()関数調整確率値と各

要約:
R&ピアソン相関係数、スピアマンの相関係数、ケンドールの相関係数を含む複数の相関係数を算出することがLT
機能CoVの()を相関係数算出することができる
GGMパッケージPCOR()関数が偏相関係数を算出することができる
試験の有意な相関
関係を有意性:2つ(またはそれ以上)の間の統計的関係を指す変数は、P <0.05のための重要な、一般的な要件である
単一ピアソン、スピアマンの相関係数とケンダル重要テストの関数cor.test()関数を使用して、
心理パッケージ提供corr.test()関数は、ワンタイム多くの相関係数行列とすることができ、重要度行列生成
pcor.test()関数は、部分相関係数の有意差検定することができます。
t検定
このように二値変数(カテゴリ変数の2種類のみ)変数(この変数は、変数の結果である)連続変数、結果変数正規分布を仮定しているされています。t検定有意使用して行うことができる
ため、フォーマットt検定を
t.test(Y〜X、データ)

これは、ここに相関係数を記述した良い記事です:相関係数

公開された39元の記事 ウォン称賛11 ビュー10000 +

おすすめ

転載: blog.csdn.net/weixin_42712867/article/details/99574176