データ処理の目的は、データ分析であるため、共通のデータを共有するには、以下の機能が分析に使用されるであろう。
パケット、および重合
データパケットをGROUPBY、パケット集約機能を直接評価と呼ばれることができ、達成するために、重合性機能に統合パケットと機能へのAGG()関数の呼び出し:
DataFrame.groupby(=なし、軸= 0、レベル=なし、as_index = Trueの場合、ソート=真、group_keys =真、スクイズ= Falseを、観察= Falseを、** kwargsからによる自己、) DataFrame.agg(自己、FUNC、軸= 0、* argsを、** kwargsから)
第二に、窓
)(圧延する圧延評価ウィンドウに応じて、()を展開すると累積を計算する昇順を指す; EWMは、指数加重移動平均を指します。
DataFrame.rolling(自己、窓、min_periods =なし、中心=偽、win_type =なし=なしに、軸= 0、=なし閉) DataFrame.expanding(自己、min_periods = 1、センター= Falseを、軸= 0) DataFrame.ewm(自己、COM =なし、スパン=なし、半減期=なし、アルファ=なし、min_periods = 0、=真、ignore_na = Falseを、軸= 0を調整します)
詳細については、を参照PANDAS学習4:一連の処理(アプリケーション、重合変換、マッピング、パケット、圧延、拡張、指数加重移動平均)
第三に、関連します
値は二対の間の相関を計算します。
DataFrame.corr(自己、メソッド= ' ピアソン'、min_periods = 1)
方法:相関を計算する方法は、実効値は「ピアソン」、「ケンドール」、「スピアマン」または呼び出し可能です
min_periods:ピアソンとスピアマン相関:各列は、現在のみ利用可能で観察された有効な結果の最小数を持っている必要があります。
第四に、統計関数
一般統計関数を使用しました。
- MIN、MAX:最小値、最大値、
- モード:モード
- VAR:分散
- STD:標準偏差
- 合計:累積と
- 意味:平均
- 怒っ:平均絶対
- median:中位数
- 分位:パーセンタイル
- カウント:カウント
- CUMSUM:累積和
- cumprod:累積製品
- クミン、cummax:累積最小値、最大累積
参照文献: