パンダ時の出力データストレージにいくつかの適切な操作を実行します。
1. *インデックス:1つ以上の列のインデックスファイルを読み込むかどうかを必要とするコンフィギュレーション・データフレームを、読み出す、およびカラム名から
* 2型推論およびデータ変換:フラグのユーザ定義の値変換の不在
3 *日付の解析
4 *反復:反復ごとのブロックサイズの大きいファイルのため。これは、Pythonのcsvライブラリパンダとネイティブとの最大の違いです
5 *不規則なデータの問題:いくつかの行、またはノートをスキップなど
1 インポートPANDAS PD AS 2 インポートNP AS numpyの 。3 。4 pd.read_csv(' CH04 / ex1.csv ') #それがデータフレームが出力される 。5(pd.read_table ' CH04 / ex1.csv ' 9月=オン、' ') #同じラインに及ぼす影響。6 。7 pd.read_csv(' CH04 / ex2.csv '、ヘッダ=なし、名前= [ ' A '、' B '、' C '、' D ' 、' MSG ' ]) 。8 # 読み出し列インデックスファイルを追加 。9 10 pd.read_csv(' CH04 / ex2.csv '、ヘッダ= なし、 11 名は= [ ' A '、' B '、' C '、' D '、' MSG ' ]、index_col = [ ' MSG '、' B ' ]) 12は #は 、ファイルが追加される列インデックスは、 'MSG'、 'B'を回しています2つの行指標となる 13である 14pd.read_table(' CH04 / ex3.csv '、9月=オン' \ + S ' ) 15 # ファイルのデリミタ使用正規表現= 9月に'\ + S' 16 。17 pd.read_csv(' CH04 / ex5.csv ' 、 18は na_values = { ' メッセージ' [:' NA '、' NULL '、' FOO '、] ' 何か':[ ' TWO ']}) 19 #の デフォルトのファイルは、NaN値の値なしに読み出される 20 #の Na_valuesメッセージ必要が何らかの形辞書の位置によって何かNaN値となり示し ている21 22がある pd.read_csv(「CH04 / ex6.csv 」、NROWS = 10 ) 23である #は 10行だけ読んで表し、 24 25 #を 削除したい場合は、CHUNKSIZE利用することができる表示される各インデックス番号 26は、 TR = pd.read_csv(' CH04 / ex6.csv '、= 1000チャンク) 27 #は、 行を削除する1000年 28 # が返し<pandas.io.parsers.TextFileReader 0x1b116b02780で>支持反復 29の検索結果= pd.Series([]) 30 のためのチャンクにTR: 31 = result.add結果(チャンク[ 「キーは」 ] .value_counts()、fill_value = 0) 32 # データの不在に対応するインデックスのデフォルト値を追加する追加方法、fill_value = 0はデフォルト値を埋めるために使用することができる 33は 34である結果=結果.sort_values(昇順= 偽) 35:結果[10] #1 トップ10の数を除去します
ディスクにデータを読みます
1 インポートPANDAS PD AS 2 インポートAS NP numpyの 。3 。4 DF = pd.read_csv(' CH04 / ex5.csv ' ) 。5 df.to_csv(' CH04 / ex5_out.csv '、=指数偽) 。6 #ないインデックス= falseの場合、ファイルとソースファイルは、ソース・ファイル・インデックスの添加異なる読み出す 。7 #のインデックスは= Falseを指定したインデックス値を書き込まない 。8 。9 df.to_csv(「CH04 / ex5_out.csv 」、インデックスは= 偽、 10 =なしヘッダ=列[ ' B '、' C '、「メッセージ」 9月=オン]、「| 」) 。11 #ヘッダ=なし、列ラベルは、「C」、唯一「B」を書き込み、書き込まない 「メッセージ」 |分離「」は、それぞれ数字または文字列で、3オープン