前述のように、Pythonでのデータ探索の主なライブラリは、pandas(データ分析)とmatplotlib(データ視覚化)です。
詳細については、Pythonのデータ視覚化ツールとメソッドを参照してください-一般的に使用されるデータ分析パッケージnumpy、pandas、statisticsの実現、および視覚化ツールmatplotlibの使用
Pandasは、多数の統計的特徴関数と統計的描画関数を提供します。描画関数はmatplotlibに依存しているため、matplotlibと組み合わせて使用されることがよくあります。
パンダは一般的に統計的特性関数を使用しました
1、sum()
データサンプルの合計を計算する(列ごとに計算)
構文:sum(iterable [、start])
その中で、次のようなiterable-iterableオブジェクト:list、tuple、set; start-加算のパラメーターを指定します。この値が設定されていない場合、デフォルトは0です。
sum([0,1,2])
sum((2, 3, 4), 1) # 元组计算总和后再加 1
sum([0,1,2,3,4], 2) # 列表计算总和后再加 2
2、mean()
データサンプルの算術平均を計算します。
mean()関数には多くのパラメーターがありますが、一般的に使用されるパラメーターは2つあります。
(1)配列全体を直接描画します。
(2)軸パラメーターを追加して、異なる軸で平均演算を実行します。
注:mean()関数はnumpyパッケージに由来するため、最初にnumpyパッケージをインストールしてダウンロードする必要があります。
pip install numpy
import numpy as np
ary = np.array([[1, 3], [2, 4]]) #创建一个二维数组
print('ary:\n',ary)
print('所有元素的平均值:',np.mean(ary)) #直接调用mean函数计算所有元素的平均值
print('每一列的平均值:',np.mean(ary, axis=0)) #保留横轴,算每一列的平均值
print('每一行的平均值:',np.mean(ary, axis=1)) #保留纵轴,算每一行的平均值
3、var()
データサンプルの標準偏差を計算します
4、std()
データサンプルの標準偏差を計算します
5、corr()
データサンプルの相関係数行列を計算します
使用形式:
D.corr(method='pearson')
上記の形式の場合:D(サンプル)は、相関係数行列を返すDateFrameにすることができます。methodパラメーターは、計算方法を指定し、ピアソン(ピアソン相関係数、デフォルトオプション)、ケンドール(ケンドール係数)、およびスピアマン(スピアマン係数)をサポートします。
S1.corr(S2,method='pearson')
上記の形式では、S1とS2はシリーズ(シーケンス)であり、この形式は2つのシリーズ間の相関係数の計算を指定するために使用されます。
例:
スピアマン法を使用して、2つの列ベクトルの相関係数を計算します。
# 计算两个列向量的相关系数
import pandas as pd
D = pd.DataFrame([range(1, 8), range(2, 9)]) # 生成样本D,一行为1~7,一行为2~8
print('D:\n',D)
print('相关系数矩阵:\n',D.corr(method='spearman')) # 计算相关系数矩阵
S1 = D.loc[0] # 提取第一行
S2 = D.loc[1] # 提取第二行
print('S1、S2的相关系数:\n',S1.corr(S2, method='pearson')) # 计算S1、S2的相关系数
6、()
データサンプルの共分散行列を計算します。
使用形式:
D.cov()
上記の形式の場合:D(サンプル)は、共分散行列を返すDateFrameにすることができます。
S1.cov(S2)
上記の形式では、S1とS2は級数(シーケンス)であり、この形式は2つの級数間の共分散の計算を指定するために使用されます。
例:
6 * 5ランダム行列の共分散行列を計算します
# 计算6×5随机矩阵的协方差矩阵
import numpy as np
D = pd.DataFrame(np.random.randn(6, 5)) # 产生6×5随机矩阵
print('协方差矩阵:\n',D.cov()) # 计算协方差矩阵
print('S1、S2的协方差:\n',D[0].cov(D[1])) # 计算第一列和第二列的协方差
7、skew()
データサンプル値の歪度(3次モーメント)を計算します。
使用形式:
D.skew()
上記の形式の場合:D(サンプル)はDateFrameまたはシリーズであり、サンプルDの歪度(3次モーメント)の計算に使用されます。
例:
6 * 5ランダム行列の歪度(3次モーメント)を計算します。
# 计算6×5随机矩阵的偏度(三阶矩)
import numpy as np
D = pd.DataFrame(np.random.randn(6, 5)) # 产生6×5随机矩阵
print(D)
print(D.skew()) # 计算偏度
8、kurt()
データサンプル値の尖度(4次モーメント)を計算します
使用形式:
D.skew()
上記の形式では、D(サンプル)はDateFrameまたはシリーズであり、サンプルDの尖度(4次モーメント)を計算するために使用されます。
例:
6 * 5ランダム行列の尖度(4次モーメント)を計算します。
# 计算6×5随机矩阵的峰度(四阶矩)
import numpy as np
D = pd.DataFrame(np.random.randn(6, 5)) # 产生6×5随机矩阵
print(D)
print(D.kurt()) # 计算峰度
9、describe()
平均、標準偏差、最大、最小、分位数など、サンプルの基本的な説明(いくつかの基本的な統計)を表示します。
使用形式:
D.describe()
上記の形式:D(サンプル)はDateFrameまたはシリーズであり、サンプルの基本的な説明(いくつかの基本的な統計)を表示するために使用されます。
D.describe()は、括弧内にいくつかのパラメーターをとることができます。たとえば、パーセンタイル= [0.2,0.4,0.6,0.8]は、デフォルトの1 / 4、1 / 2ではなく、0.2、0.4、0.6、0.8の分位数のみが計算されることを意味します。 、3/4分位。
例:
6 * 5ランダム行列の基本的な統計を表示します。
# 6×5随机矩阵的describe
import numpy as np
D = pd.DataFrame(np.random.randn(6, 5)) # 产生6×5随机矩阵
print(D.describe())