パンダは、CSVを読みます

パラメータ

読み込みCSV(カンマ区切り)データフレームにファイル

また、インポートし、反復を選択し、ファイルの一部をサポートしています

より多くのヘルプを参照してください:http://pandas.pydata.org/pandas-docs/stable/io.html

パラメータ:

filepath_or_buffer:STR、pathlib.str、pathlib.Path、py._path.local.LocalPathまたは(例えば、ファイルハンドルやたStringIOなど)read()メソッドを持つオブジェクト

HTTP、FTP、S3およびファイル:それはURL、利用できるURLの種類をすることができます。マルチファイル準備中

ローカルファイルの読み取り例:: //localhost/path/to/table.csv

9月:STR、デフォルト''

区切り文字を指定します。あなたはパラメータを指定しない場合、それは、カンマを使用しようとします。区切り文字ではなく1つの文字「\ sの+」、パーサはパイソンを使用するよりも長いです。そして、カンマでデータを無視します。正規表現の例:R「の\ tの\」

区切り文字:STR、デフォルトなし

デリミタ、あるいはデリミタ(このパラメータが指定されている場合、パラメータ月障害)

delim_whitespace:ブール値、デフォルトはFalse。

指定された空間は(例えば、「」または「」)セパレータとして使用され、それは9月=「\ S +」を設定することと等価です。このパラメータが設定されている場合は、区切りの引数はトゥーレに失敗します。

新バージョン0.18.1のサポートに

ヘッダ:intまたはintのリスト、デフォルトの「推論」

列名として使用される行の指定された数は、データの行数を開始します。0のファイル名がリストされていない場合、それはデフォルトで、それ以外の場合はNoneに設定されています。あなたが明示的にヘッダを設定した場合= 0は、元の列名が存在して置き換えます。ヘッダパラメータは、例えば、リスト:列見出し(列毎に複数のタイトルを意味する)、介在する行は無視されるように[0,1,3]この文書は、例えば、本(これらの行のリストを示します実施例2;データ行が2,4ヘッダが多段として表示され、この場合、第3ライン)がデータフレームのデータライン5から始まり、廃棄されます。

注:skip_blank_lines = Trueのパラメータは、ヘッダのコメント行と空白行を無視し、第1行ヘッダー= 0は、データの最初の行ではなくファイルを表す場合。

名前:配列のような、デフォルトなし

列名の結果リスト、データファイルは、列ヘッダー行ではない場合、あなたはヘッダ=なしを実行する必要があります。デフォルトのリストには、trueに設定パラメータmangle_dupe_cols =ない限り、複製することはできません。

index_col:intまたはシーケンスまたはFalse、デフォルトなし

行インデックスの複数のシーケンスが与えられた場合、行番号または列インデックス列名として使用します。

ファイルが不規則である場合、ラインセパレータの端部があり、行インデックスとしてindex_col =偽パンダNAの第1行に設定してもよいです。

usecols:配列のような、デフォルトなし

リスト内のデータ値のサブセットをファイルの場所に対応することができる戻り、ファイル転送のための(数が指定された列に対応していてもよい)、または文字列名でなければなりません。例えば:usecolsパラメータは、[0,1,2]または[ 'foo' で、 'バー'、 'バズ']有効であり得ます。このパラメータを使用すると、より速くロードし、メモリ消費量を削減することができます。

as_recarray:ブール、デフォルトはFalse

非推奨:このパラメータは、将来のバージョンで削除されます。pd.read_csv(...)を使用してください。To_records()の代わりに。

numpyのデータフレームの代わりにrecarrayのリターン。このパラメータがTrueに設定されている場合。優先順位は、パラメータを圧迫します。そして、行インデックスは、インデックス列は無視され、使用できなくなりました。

スクイーズ:ブール、デフォルトはFalse

値は、ファイルが含まれている場合は、リターンシリーズ

接頭辞:STR、デフォルトなし

列見出しがない場合には、列にプレフィックスを追加します。たとえば: 'X' はX0、X1、であることを追加しています...

mangle_dupe_cols:ブール値、デフォルトはTrue

列を複製、 'X' ... 'X' は 'X.0' ... 'X.N' として表現されます。falseに設定されている場合には、ランク付けされ、すべての重いをカバーします。

DTYPE:タイプ名または列の辞書- >タイプ、デフォルトなし

データ型のデータの各列。例えば{ 'A':np.float64、 'B'} np.int32

エンジン:{ 'C'、 'のpython'}、任意

パーサエンジンに使用します。Pythonのエンジンは現在、より多くの機能を備えた完全である一方、Cエンジンが高速です。

分析エンジン。Cは、選択やPythonされてもよいです。より完全なCエンジン高速だが、Pythonのエンジン機能。

コンバータ:辞書、デフォルトなし

列変換辞書機能。キーは、列名または列番号を指定できます。

true_values:リスト、デフォルトなし

真として考慮すべき値

false_values:リスト、デフォルトなし

値がFalseに検討します

skipinitialspace:ブール、デフォルトはFalse

(デフォルトでは無視されていないこと、Falseの)区切り文字の後に空白は無視します。

skipRows:リスト状または整数、デフォルトなし

(ファイルの先頭から数えて)無視される行の数、または行番号(0から始まる)のリストをスキップする必要があります。

skipfooter:int型、デフォルト0

ファイルの末尾から無視し始めました。(Cエンジンがサポートしていません)

skip_footer:int型、デフォルト0

推奨しない:skipfooterを使用することが推奨され、同じ機能。

NROWS:int型、デフォルトなし

読み取られる行数(ファイルヘッダからカウント開始)。

na_values:スカラー、STR、リストのような、または辞書、デフォルトなし

置換値NA / NaNでの一連の。あなたは、パラメータ、特定の列にNULL値の必要性を渡す場合。デフォルトは 'N / A'、 '1#QNAN ' 1#のIND' であり、' NA '' NULL '' のNaN '' nan'`。

keep_default_na:ブール値、デフォルトはTrue

あなたはna_valuesパラメータを指定し、keep_default_na = Falseの場合、デフォルトのNaNはそれ以外の場合は追加し、上書きされます。

na_filter:ブール値、デフォルトはTrue

欠損値(空の文字列またはnull)かどうかを確認してください。大きなファイルの場合、データセットはna_filter = Falseの場合、読み取り速度を向上させることができます設定NULL値、ではありません。

冗長:Falseのブール値、デフォルト

「値]列に非欠損値の数」など:例えば情報出力リゾルバ、さまざまなを印刷するかどうか。

skip_blank_lines:ブール値、デフォルトはTrue

Trueの場合、空白行をスキップし、そうでない場合はNaNと呼ばれます。

parse_dates:ブールまたはint型または名前やリストや辞書のリストのリスト、デフォルトはfalse

  • ブール真 - 。>分析指標
  • [2、1、3]の場合、例えばint型または名前のリスト - 分析カラムは値1,2,3>別々の日付列と、
  • 場合は、たとえばリストのリスト[1、3]] - > 3列は日付列として組み合わせました
  • 辞書、例えば{ 'FOO':[1,3]} - >合成カラム1、3、及び "foo" という名前の列に合わせ

infer_datetime_format:ブール、デフォルトはFalse

利用できる真とparse_datesに設定すると、パンダはあなたが、変換方法および解像度を変換することができれば、これまでのタイプを変換しようとします。いくつかのケースでは5〜10倍高速化。

keep_date_col:ブール、デフォルトはFalse

あなたが日付を解析するために複数の列を接続した場合、それが関係する列に接続されたまま。デフォルトはFalseです。

date_parser:機能、デフォルトなし

機能はデフォルトdateutil.parser.parser変換を行う使用して、日付を解析するために使用されます。パンダは一方通行の下ですべての問題を解決しようとするには、3つの異なる方法があります使用することです。

パラメータとして(parse_datesによって指定された)は、1つまたは複数を使用して、1アレイ。

2.パラメータとしてマルチカラムカラムとして接続文字列は、

3.パラメータとして(parse_datesで示す)文字列を解析するために1回以上関数と呼ばれる各行date_parser。

dayfirst:ブール、デフォルトはfalse

日付タイプDD / MM形式

イテレータ:ブール、デフォルトはFalse

ブロックすることにより、ファイルブロックにTextFileReaderオブジェクトを返します。

チャンクサイズ:int型、デフォルトなし

ファイルブロックのサイズは、より多くの情報ツールIOのためのドキュメントを参照してください。 ONイテレータとチャンクの大きさを。

圧縮:{ 'INFER'、 'GZIP'、 'BZ2'、 'ZIP'、 'XZ'、なし}、デフォルトの'推論'

ディスク上の圧縮ファイルを直接使用します。あなたは、GZIP、BZ2、ジッパーを使用して、引数の推論を使用するか、「.gzを」、「.bz2' 、」.zipファイル」、または 『XZ』は、これらのファイルをサフィックス、または解凍していないにファイル名を解凍した場合。あなたがジッパーを使用した場合、中国のZIPパッケージには、一つだけのファイルが含まれている必要があります。解凍はNoneに設定されていません。

新バージョン0.18.1バージョンはzipファイルをサポートしており、XZを解凍します

何千人:STR、デフォルトなし

千の区切り文字は、そのような「など」や「」

小数:STR、デフォルトの''

小数点文字(例:欧州のデータを使用して「」)。

float_precision:文字列、デフォルトなし

Cエンジンは、浮動小数点値のために使用すべき変換器を指定します。オプションは通常のコンバータのいずれも、高精度コンバータの高い、との往復コンバータのround_tripません。

指定

lineterminator:STR(長さ1)、デフォルトなし

行区切り、唯一のCパーサ。

quotechar:STR(長さ1)、任意

引用符内の引用、と説明したように、スタート識別文字が使用され、区切り文字は無視されます。

引用:intまたはcsv.QUOTE_ *インスタンス、デフォルト0

コントロールは、CSVでの定数を引用しています。あるいはQUOTE_MINIMAL(0)、QUOTE_ALL(1)、QUOTE_NONNUMERIC(2)またはQUOTE_NONE(3)

ダブルクォート:ブール値、デフォルトはTrue

単一引用符が定義されており、および二重引用符は、要素内の要素として表現する際のパラメータはQUOTE_NONEを引用されていない二重引用符、。

EscapeCharに:STR(長さ1)、デフォルトなし

引用ときに制限されていない区切り文字を指定して、QUOTE_NONEです。

コメント:STR、デフォルトなしに

余分な行が解決されていない特定します。文字が最初に表示された場合は、すべての行が無視されます。このパラメータは、文字、コメント行ヘッダとのskipRowsとして無視されている(skip_blank_lines = Trueのは同様の)空白行することができます。例えば、指定されたコメント=「#」解析なら「#emptyがBをNa \、C \ n1,2,3」= 0ヘッダに戻され、結果はヘッダとして「B、C」であろう。

エンコーディング:STR、デフォルトなし

、一般的に「UTF-8」に指定された文字セットのタイプを指定Python標準エンコーディングのリストを

方言:STRまたはcsv.Dialectインスタンス、デフォルトなし

複数の文字が9月に無視されている場合は、特定の言語を指定しない場合。csv.Dialect特定のドキュメントを見ます

tupleize_cols:ブール、デフォルトはFalse

であるとして、列のタプルのリストを残す(デフォルトでは、列にマルチインデックスに変換することです)

error_bad_lines:ブール値、デフォルトはTrue

行があまりにも多くの列が含まれている場合、デフォルトでは、データフレームを返しませんfalseに設定されている場合、(のみCパーサーで利用可能)を拒絶するように転用されます。

warn_bad_lines:ブール値、デフォルトはTrue

error_bad_lines場合= Falseを、そしてwarn_bad_lines = trueの場合、すべての「悪い行が」出力(のみCパーサで利用可能)になります。

low_memory:ブール値、デフォルトはTrue

ブロックがメモリにロードされ、その後、低メモリ消費量が解析されます。しかし、発生する可能性のある混乱のタイプ。その型を確実混同しないようにはFalseに設定する必要があります。DTYPE引数は、タイプまたは使用することを指定します。、データフレームの入口に読み込む(Cのみパーサーに有効な)タイプを無視しているパラメータブロックイテレータチャンクの使用をメモまたはファイル全体を読み取ります

buffer_lines:int型、デフォルトなし

彼の値は、パーサーでの使用は推奨されていないためお勧めしません、このパラメータは、将来のバージョンでは削除されます

compact_ints:ブール、デフォルトはFalse

お勧めできません、このパラメータは将来のバージョンで削除されます

compact_ints = trueの場合、最小の整数の種類に応じて格納される任意の整数型の列構成がある場合は、署名されたかどうかのパラメータに依存するであろうuse_unsigned

use_unsigned:ブール値、デフォルトはFalse

推奨しない:このパラメータは将来のバージョンで削除されます

整数列(すなわちcompact_ints = TRUE)圧縮されている場合、圧縮された指定された列は、符号付きまたは符号なしています。

memory_map:ブール、デフォルトはFalse

あなたはメモリ内のファイルを使用している場合は、直接ファイルをマップします。再度ファイルIO操作を避けるために、この方法を使用します。

エラー処理

図1に示すように、リードデリミタ複数の値(「〜」)を繰り返します

ファイルの内容

{商品编码}[分隔符]"~~"
// 每行格式 :
// 编码~~名称~~简码~~商品税目~~税率~~规格型号~~计量单位~~单价~~含税价标志~~隐藏标志~~中外合作油气田~~税收分类编码~~是否享受优惠政策~~税收分类编码名称~~优惠政策类型~~零税率标识~~编码版本号
001~~服务费~~~~~~0.06~~~~次~~0~~False~~0000000000~~False~~304060399~~否~~其他咨询服务~~~~~~33.0
002~~咨询服务费~~~~~~0.06~~~~次~~0~~False~~0000000000~~False~~304060299~~否~~其他鉴证服务~~~~~~33.0

パラメータ設定

df = pd.read_csv(path,sep='~~',  encoding='gbk', header=2,skipinitialspace =True,engine='python')

#该情况主要是设置 skipinitialspace =True

**skipinitialspace** : boolean, default False
忽略分隔符后的空白(默认为False,即不忽略).

結果

//コーディング 名前 ショート いくつかのアイテム 税率 仕様モデル 測定の単位 単価 税価格マーク 隠すのロゴ 石油・ガス分野での中国と外国の協力 税分類コード 優遇政策を享受するかどうか 税分類コード名 インセンティブの種類 ゼロ税率を識別します エンコードされたバージョン番号
0 1 サービス料 NaNの NaNの 0.06 NaNの 二次 0 0 304060399 ノー その他のコンサルティングサービス NaNの NaNの 33.0
1 2 コンサルティングサービス NaNの NaNの 0.06 NaNの 二次 0 0 304060299 ノー 他の保証サービス NaNの NaNの 33.0

おすすめ

転載: www.cnblogs.com/jokerBi/p/11314957.html