「統計方言、」ノートのV.1

基本1.変動、統計

  • 科学的なサンプリングの重要性は、サンプルの数よりも大きくなります。

  • そのためのサンプリングエラーサンプル統計は、直接人口のパラメータを推定した場合、その後、確かにいくつかの偏差があるだろう、存在している、別のパラメータは、ときに、このバイアスの全体的な大きさ、信頼区間のすなわち使用検討すると推定されている大胆なスタイルの人口のパラメータを推定します。

  • サンプルは、サンプリングエラーの大きさ、即ち、一度計算することができる標準誤差標準誤差は、すべての統計的手法に再び表示されます。標準誤差が小さい場合には信頼性の高い結果を提供することができる、結果は信頼性がある;、代表的なサンプルを示唆し、標本誤差の標準誤差が強くない大規模な場合は、サンプルサイズは、この時点で増やす必要があります。

2.確率分布

  • 消費値は、F(x)は図7を用いて、内部の力の累積分布に対応します。F(X)の内力の消費速度に対応する確率密度は、によって表されます。
  • 累積分布の傾きに等しい確率密度、より大きな、累積分布の傾きより大きい。
  • 我々は、正規分布の確率は、二項分布、t分布は、確率密度関数の分布であるが、それらの下の領域が100%であることを言うが、異なる密度が異なる点で、その中、X = 0であり、数密度大きなx = 2の密度で少し。

確率密度が使用何を知っていますか?

ワイブルで生存を求めて2.1ディストリビューションの法則

  • なぜ配布しなければなりませんか?
  1. 分布が長い対応する決定されたパラメータが明示的分布の形状とすることができるように固定形状を有するので、使用。
  2. それは、これらのパラメータの数の変化に応じて説明することができるように、典型的には、統計ソフトウェアを使用して対応するパラメータを見つけます。
  3. セレクト分布は、何の経験に基づいています。以前は、他のディストリビューションの形式が、左側の良い結果の形で配布を選択する必要があります。

2.2配布ロジスティックと流行病を探ります

あなたが知りたい場合は病気の感染率を見る必要確率密度マップを
ここに画像を挿入説明
ロジスティック分布は、多くの場合、進化のライフサイクルを研究するために使用されます。発生、発達、成熟、彩度:分け。

2.3「普通の」正規分布

より安定したのいくつかを記述するために使用されるだけでなく、因果関係の要因のいくつかの現象の影響によって。

ノーマル--normal分布、すなわち一般的な分布は、データ形式の最も一般的な種類の現実を表しています。- 2つのパラメータで決まる平均値と標準偏差

平均位置パラメータの標準偏差形状パラメータ

フロント微分係数はスタウトの、すなわち分布標準、すなわち、より大きな標準偏差、密度に対応する小さい値によって決定され、標準偏差、より大きな密度分布に対応する値「背が高く、薄いです」。

通常法とシグマ〜6回の下の面積
ここに画像を挿入説明

2.4標準正規分布

様々な形状の正規分布、標準正規分布(標準正規分布)が最も実用的です。すなわち、生データを正規化した後、正規化されたデータが正規分布にフィット、です。

0標準偏差値として1を意味する標準にデータを変換します。
ように標準正規分布は分布の標準偏差として1 0を中心とします。

横軸の時間に直接標準偏差が1であるので、簡略化され、正規分布法則に対する標準正規分布、2標準偏差が記載されている標準的な正規分布を利用するために、2回の標準偏差、1であります内中心として0、プラスまたはマイナス95.4%程度の面積の2:のような、よりシンプルな法則エリア、。

小さなサンプル分布の2.5分布--t

t検定t分布に対応します。

分布の小さなサンプルを遵守するために、見つけるためのサンプルと小さなサンプルの分布との大きな違い。
ここに画像を挿入説明

統計の種類3.思考

ここに画像を挿入説明
连续型资料和离散型资料区别在于有无小数点。

3. 1 寻找cut-off值的多种方法

3.1.1 根据专业和经验

3.1.2 利用ROC曲线找到cut-off值(二分类结局)

其必须有一个明确的二分类结局。
ここに画像を挿入説明

3.1.3 利用最大选择秩统计量找到cut-off值

3.1.4 利用分类树来划分

ここに画像を挿入説明

3.1.5 聚类分析

上述方法都必须有一个已经确定的结局(因变量),然后根据这一结局对自变量进行划分,通常将这些情况称为 有监督的

无监督 为有时可能只有一个连续变量,其它什么都没有,在这种情况下就无法根据结局对其进行划分,只能利用该变量本身的数据进行划分,此时就可以采用聚类分析(cluster analysis)

聚类分析的算法有:

层次法; K-means法; SOM法; 概率模型法

  1. 层次分析法需要自己判断聚成几类合适;
  2. K-means法通过寻找每一类的中心点,保证该类中的点都距离自己的中心点较近,而其它类中的点距离自己的中心点较远。

聚类分析思想: 基于距离来划分,两个点距离近就划分到一类,两个点距离远就划分为另外一类。

有的聚类算法需要在划分前先指定 拟划分类别数(K-means法和SOM法),有的则不需要(层次分析法)。

聚类方法总的原则:保证划分后各类别之间的距离尽量远,类别内的距离尽量近。

PS:聚类分析完全是根据数据本身来划分,不涉及任何专业的知识,但有的时候会导致划分的类别和专业相悖。所以需要谨慎~!!!!

3.1.6 虚拟变量和哑变量

偽の、本物ではない変数であるダミー変数変数。変数が複数の分類カテゴリkを有する場合、K-1は、二分変数に変換することができる:それは、一般的に、ある二値変数の複数に分類元のマルチを変換することです。

結果の分類解釈は持っている必要があり、参照カテゴリを。我々は、マルチ分類カテゴリを変換するとき、kがK-1可変二値変数であり、各々が二分表す基準カテゴリに対してサイズ。

例えば、カテゴリ変数で表されるマルチ-1,2,3,4-は、X、我々は、1と3、4の大きさに比べて、1および2で表される粒径分布に比べ、基準として1に生成された三個のダミー変数を設定します1の大きさに比べ。

ダミー変数を生成することにより、我々は、元の因子がさらに独立変数と従属変数の時間に対して非直線的な関係で詳細に独立変数と従属変数との間の関係を示す係数よりなり、入れましたそれは非常に重要です。線形回帰とロジスティック回帰を使用している場合、実際には、我々は暗黙のうち独立変数と従属変数間の線形関係を持っているので、我々は、非直線的な関係を見つけることは不可能だっただろう。

ここに画像を挿入説明
ここに画像を挿入説明

公開された71元の記事 ウォン称賛19 ビュー10000 +

おすすめ

転載: blog.csdn.net/Theo93/article/details/101379747