初心者のデータマイニング-データ探索(7):Pythonの主要なデータ探索関数の一般的に使用される統計機能関数

前述のように、Pythonでのデータ探索の主なライブラリは、pandas(データ分析)とmatplotlib(データ視覚化)です。

詳細については、Pythonのデータ視覚化ツールとメソッドを参照してください-一般的に使用されるデータ分析パッケージnumpy、pandas、statisticsの実現、および視覚化ツールmatplotlibの使用

Pandasは、多数の統計的特徴関数と統計的描画関数を提供します。描画関数はmatplotlibに依存しているため、matplotlibと組み合わせて使用​​されることがよくあります。

パンダは一般的に統計的特性関数を使用しました

1、sum()

データサンプルの合計を計算する(列ごとに計算)

構文:sum(iterable [、start])
その中で、次のようなiterable-iterableオブジェクト:list、tuple、set; start-加算のパラメーターを指定します。この値が設定されていない場合、デフォルトは0です。

sum([0,1,2])

ここに画像の説明を挿入

sum((2, 3, 4), 1)        # 元组计算总和后再加 1

ここに画像の説明を挿入

sum([0,1,2,3,4], 2)      # 列表计算总和后再加 2

ここに画像の説明を挿入

2、mean()

データサンプルの算術平均を計算します。

mean()関数には多くのパラメーターがありますが、一般的に使用されるパラメーターは2つあります。
(1)配列全体を直接描画します。
(2)軸パラメーターを追加して、異なる軸で平均演算を実行します。

注:mean()関数はnumpyパッケージに由来するため、最初にnumpyパッケージをインストールしてダウンロードする必要があります。

pip install numpy

ここに画像の説明を挿入

import numpy as np

ary = np.array([[1, 3], [2, 4]]) #创建一个二维数组
print('ary:\n',ary)
print('所有元素的平均值:',np.mean(ary)) #直接调用mean函数计算所有元素的平均值
print('每一列的平均值:',np.mean(ary, axis=0)) #保留横轴,算每一列的平均值
print('每一行的平均值:',np.mean(ary, axis=1)) #保留纵轴,算每一行的平均值

ここに画像の説明を挿入

3、var()

データサンプルの標準偏差を計算します

4、std()

データサンプルの標準偏差を計算します

5、corr()

データサンプルの相関係数行列を計算します

使用形式:

D.corr(method='pearson')

上記の形式の場合:D(サンプル)は、相関係数行列を返すDateFrameにすることができます。methodパラメーターは、計算方法を指定し、ピアソン(ピアソン相関係数、デフォルトオプション)、ケンドール(ケンドール係数)、およびスピアマン(スピアマン係数)をサポートします。

S1.corr(S2,method='pearson')

上記の形式では、S1とS2はシリーズ(シーケンス)であり、この形式は2つのシリーズ間の相関係数の計算を指定するために使用されます。

例:

スピアマン法を使用して、2つの列ベクトルの相関係数を計算します。

# 计算两个列向量的相关系数
import pandas as pd
D = pd.DataFrame([range(1, 8), range(2, 9)])  # 生成样本D,一行为1~7,一行为2~8
print('D:\n',D)
print('相关系数矩阵:\n',D.corr(method='spearman'))  # 计算相关系数矩阵

S1 = D.loc[0]  # 提取第一行
S2 = D.loc[1]  # 提取第二行
print('S1、S2的相关系数:\n',S1.corr(S2, method='pearson'))  # 计算S1、S2的相关系数

ここに画像の説明を挿入

6、()

データサンプルの共分散行列を計算します。

使用形式:

D.cov()

上記の形式の場合:D(サンプル)は、共分散行列を返すDateFrameにすることができます。

S1.cov(S2)

上記の形式では、S1とS2は級数(シーケンス)であり、この形式は2つの級数間の共分散の計算を指定するために使用されます。

例:

6 * 5ランダム行列の共分散行列を計算します

# 计算6×5随机矩阵的协方差矩阵
import numpy as np
D = pd.DataFrame(np.random.randn(6, 5))  # 产生6×5随机矩阵
print('协方差矩阵:\n',D.cov())  # 计算协方差矩阵
print('S1、S2的协方差:\n',D[0].cov(D[1]))  # 计算第一列和第二列的协方差

ここに画像の説明を挿入

7、skew()

データサンプル値の歪度(3次モーメント)を計算します。

使用形式:

D.skew()

上記の形式の場合:D(サンプル)はDateFrameまたはシリーズであり、サンプルDの歪度(3次モーメント)の計算に使用されます。

例:

6 * 5ランダム行列の歪度(3次モーメント)を計算します。

# 计算6×5随机矩阵的偏度(三阶矩)
import numpy as np
D = pd.DataFrame(np.random.randn(6, 5))  # 产生6×5随机矩阵
print(D)
print(D.skew())  # 计算偏度

ここに画像の説明を挿入

8、kurt()

データサンプル値の尖度(4次モーメント)を計算します

使用形式:

D.skew()

上記の形式では、D(サンプル)はDateFrameまたはシリーズであり、サンプルDの尖度(4次モーメント)を計算するために使用されます。

例:

6 * 5ランダム行列の尖度(4次モーメント)を計算します。

# 计算6×5随机矩阵的峰度(四阶矩)
import numpy as np
D = pd.DataFrame(np.random.randn(6, 5))  # 产生6×5随机矩阵
print(D)
print(D.kurt())  # 计算峰度

ここに画像の説明を挿入

9、describe()

平均、標準偏差、最大、最小、分位数など、サンプルの基本的な説明(いくつかの基本的な統計)を表示します。

使用形式:

D.describe()

上記の形式:D(サンプル)はDateFrameまたはシリーズであり、サンプルの基本的な説明(いくつかの基本的な統計)を表示するために使用されます。

D.describe()は、括弧内にいくつかのパラメーターをとることができます。たとえば、パーセンタイル= [0.2,0.4,0.6,0.8]は、デフォルトの1 / 4、1 / 2ではなく、0.2、0.4、0.6、0.8の分位数のみが計算されることを意味します。 、3/4分位。

例:

6 * 5ランダム行列の基本的な統計を表示します。

# 6×5随机矩阵的describe
import numpy as np
D = pd.DataFrame(np.random.randn(6, 5))  # 产生6×5随机矩阵
print(D.describe())

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_45154565/article/details/109503634