オンライン個人が実際にポイント共通追加する]をタップする必要はありません
環境IDEのアナコンダのpython3.7を
このクイックリファレンスガイドでは、我々は次の略語を使用します。
DF:オブジェクトの任意のパンダのデータフレーム
S:任意のオブジェクトパンダシリーズ
同時に、我々は、以下の導入を行う必要があります。
Pd等の輸入パンダ
NPとしてnumpyのインポート
データのインポート
- pd.read_csv(ファイル名):CSVファイルからデータをインポート
- pd.read_table(ファイル名):定義区切りのテキストファイルからデータをインポート
- pd.read_excel(ファイル名):Excelファイルからデータをインポート
- pd.read_sql(クエリ、connection_object):SQLテーブル/データベースからデータをインポート
- pd.read_json(json_string):JSON形式の文字列からデータをインポート
- pd.read_html(URL):抽出されたテーブルが形成しており、HTMLファイルや文字列をURLを解析
- pd.read_clipboard():クリップボードからコンテンツを取得し、そして(read_table合格)
- pd.DataFrame(辞書):辞書オブジェクトからデータをインポートは、キーがカラム名、値のデータであります
データのエクスポート
- df.to_csv(ファイル名):CSVファイルへのデータのエクスポート
- df.to_excel(ファイル名):Excelファイルへのエクスポートデータ
- df.to_sql(TABLE_NAME、connection_object):SQLテーブルへのエクスポートデータ
- df.to_json(ファイル名):JSON形式は、テキストファイルにデータをエクスポートします
テストオブジェクトを作成します。
- pd.DataFrame(np.random.rand(20,5)):5からなるオブジェクトの作成20データフレームの行乱数
- pd.Series(my_listという):イテラブルmy_listというのシリーズオブジェクトの作成
- df.index = pd.date_range(= df.shape '1900年1月30日'、期間[0]):日付インデックスを増加させます
データを確認し、チェック
- df.head(N):ビューのデータフレームは、最初のn行をオブジェクト
- df.tail(N):ビューデータフレームオブジェクト最後のn行
- ()df.shape:行と列の数を見る #Windowsのエラー括弧
- )(df.info :インデックス、データ型とメモリ情報を見ます
- df.columnsビューの列
- ビューインデックスdf.index
- 数値列のサマリー統計を表示するdf.describeは()になりますデジタル統計が最大最小差の合計数を表示します
- s.value_counts(dropna =偽):シリーズ一意のオブジェクトカウント値を参照してください
- df.apply(pd.Series.value_counts):参照データフレームオブジェクト固有の値と、各列の数
データセレクター
- DF [COL]:カラム名、およびシリーズの形で列を返します
- DF [COL1、COL2]:データフレームの列の複数の形態を返します
- s.iloc [0]:位置でデータを選択して サポートインデックス、スライスしました
- s.loc [「index_one」]:インデックスに応じてデータを選択すると、 地獄がこれが何であるかを理解していませんでした
- df.iloc [0:]:最初の行戻り 結腸が最後まで開始を示し、スライスの長さを指定することができ
- df.ilocは[0,0]:最初の列の最初の要素を返します。
- df.iloc [:、0]:最初の列を返します。
データクレンジング
- df.columns = [ 'A'、 'B'、 'C']:カラム名を変更
- pd.isnull()は():.データフレーム、ヌル検査対象とブール配列を返します
- pd.notnull()は():. DATAFRAME非NULL値の検査対象とブール配列を返します
- PD [pd.notnull()== TRUE]フィルタすべてのNULL
- PD [PD。列名.notnull()== TRUE]このデータのろ過カラム価値は空です
- df.dropnaは():すべての行がNULL値を含む削除します
- df.dropna(軸= 1):削除すべての列がヌル値を含みます
- df.dropna(軸= 1、脱穀= N)未満のn行すべての非NULL値を削除します
- df.fillna(x):xですべてNULL値のデータフレームのオブジェクトを交換
- s.astype(フロート):シリーズに浮かぶようにデータ型を変更
- s.replace(1、「1」) : 「1」を有する代わりに、すべての値が1に等しい に別の浮動小数点型で試験INT INT列全体
- s.replace([1,3]、[ '1'、 '3']):1の代わりに '1' と、 '3' を有する代わりに3
- df.rename(カラム=ラムダX、X + 1):質量変化カラム名
- df.rename(列= { 'OLD_NAME': 'new_master_ hostは名前'}):選択列名を変更します
- df.set_index( 'column_one'):インデックス列を変更
- df.rename(インデックス=ラムダX:X + 1):一括リネームインデックス
データ処理:フィルター、ソートやGROUPBY
- DF [COL]> 0.5 DF]:選択COLカラムは0.5より大きい値
- デフォルトで昇順にソートCOL1列のデータ、:df.sort_values(COL1)
- df.sort_values(COL2、昇順=偽):降順にデータ列COL1に従って
- df.sort_values([COL1、COL2]、昇順=真、偽):最初の昇順COL1列によって、COL2降順は、データに応じ
- カラムCOLによってグループ化GROUPBYオブジェクトのいずれかを返し:. df.groupby(COL)は 、実際のリターンアドレス形成であります
- df.groupby([COL1、COL2):複数のオブジェクトによって返品はGROUPBY列をグループ化されます。
- df.groupby(COL1)COL2]:カラムCOL2列COL1によってRETURN基を意味する。 またはアドレスを返します
- COL2及びCOL3カラムCOL1によってグループを作成するために、ピボットテーブルの最大値、及び計算:df.pivot_table(インデックス= COL1、値= [COL2、COL3]、aggfunc = max)を
- customer_data.pivot_table(インデックス= 'REFER'、値= '年齢'、aggfunc = [MAX、MIN]) チャネルごと。最小値と最大値
- df.groupby(COL1).agg(np.meanは):列COL1でグループ化されたすべての列の平均値を返します。
- 多くの場合、のそれぞれにおけるチャネルによるチャネルの各チャネルの平均値を表示するために使用される平均値(最大値と最小値の全体ではなくデータの年齢)
- data.apply(np.mean):データフレームアプリケーション機能np.meanの各列
- data.apply(np.max、軸= 1):np.maxデータフレームの応用機能の行ごとに
データ処理:新しい列を追加します。
- 新たに追加された列をもたらすであろう、現在のプロセスの結果によれば/増加
- フレーム[ 'テスト'] = frame.apply(lamubda X:関数(x.city、x.year)、軸= 1)
- 関数は、準備の関数であり、
データマージ
- df1.append(DF2):DF2がDF1の行の末尾に追加
- df.concat([DF1、DF2]、軸= 1):DF1の端部にDF2列を追加
- df1.join(DF2、=のCOL1に、どのように= '内部'):DF1とDF2列の列のSQL実行形式に参加
統計
- df.describe():列の要約統計量のデータ値を参照してください
- df.mean():すべての列の平均値を返します。
- df.corrは():行と列の間の相関係数を返します。
- df.count():各列の非ヌル値の数を返します
- df.max():各列の最大値を返します
- df.min():各列の最小値を返します
- df.medianは():各列の中央値を返します。
- df.std():各列の分散の標準偏差を返します
- より大きな値は、より多くの分散データを示し、