コンフィギュレーション・データ・ブロック・パンダ外部データを読む - テキストファイル(SのUTF-8でエンコードされた中国の経験歪みプロセス)を読むために

    二次元アレイ状のデータブロック構造を記録し、上記物品パンダは、辞書は、本明細書にリストやタプルのようなネストされた、本明細書では、外部リードデータを介してデータフレームを構築するために使用されます。

Pythonは、外部のデータ・セットを読んで、これらのデータセットは、パンダでそれらを達成するためにどのようにして、などのテキストファイル(CSV、TXT)、Excelスプレッドシートやデータベース(MySQLやSQLサーバ)、中に含まれていてもよいです

文書、スプレッドシート、データベース、それを読みますか?

1.テキストファイルを読み取ります

   read_table機能紹介

プロトタイプ:

pd.read_table(filepath_or_buffer、9月= 'T'、ヘッダ= 'INFER'、名前=なし、index_col =なし、usecols =なし、DTYPE =なし、コンバータ=無し、のskipRows =なし、

      skipfooter =なし、NROWS =なし、na_values =なし、skip_blank_lines =真、parse_dates = Falseの、何千=なし、コメント=なし、エンコーディング=なし)

パラメータの意味:

特定のパス指定されたTXTまたはCSVファイルは次の場所にあります。file_path_or_bufferを

9月には、各フィールドの間でのデータセットの区切り、デフォルトのタブ]タブを指定します。

ヘッダ:元のデータが最初の行ヘッダー、デフォルトのフィールド名として最初の行として設定されたか否か

名前:いいえフィールド元のデータセットが、データがこのパラメータで読み取ることができれば、特定のデータフレームヘッダを追加します

index_col:指定したデータフレームの行インデックス(タブ)として設定され、元のデータの列

usecols:元のデータセットを読み込む必要が指定する変数名。

DTYPE:各フィールドのデータが読み出され、元のデータセットは、異なるデータタイプであってもよいです

コンバータ:辞書形式、いくつかのフィールドを設定されたデータは、変換関数を設定します

skipRows:データを読み出すとき、あなたは元のデータセットの先頭にスキップする必要のある行数を指定します

skipfooter:データの行数が読み取られると、元のデータセットの最後にスキップする必要性を指定します

NROWS:データの読み出しの行数を指定します。

na_values:指定欠損値として設定された元のデータの値が特徴

skip_blank_lines:データを読み込むとき、空白行の元のデータセットをスキップするかどうか、デフォルトはTrueです

parse_dates:パラメータの値がTrueの場合には、データフレームの行インデックスを解析しようとすると、引数は、対応する日付列を解決しようとする試みは、リストの場合は、パラメータは、ネストされたリストである場合、日付列には、いくつかの列のマージです。

      パラメータが辞書の場合、分析カラム(辞書内の値)に対応し、新しいフィールド名(キーの辞書)を生成します。

何千人:元のデータセットマイクロメートルのビットシンボルを指定します。

コメント:データの読み込みコメント文字を指定し、遭遇した最初の行は、指定されたコメント文字が流用スキップした場合

エンコーディング:ファイルが中国の含まれている場合、時にはあなたは、文字エンコーディングを指定する必要があります。

パラメータは、次の例のアクセスが必要に応じて提供されていないいくつかのパラメータを持つ、より複雑です。

次のように、ファイルをそこtxtを。

「「」

出典:テーブルの会社の人事記録
時間:2019年1月1日〜2019年10月31日

年、月ザ・、日、性別,.放射線、収入のJOURNAL
1990,3,7、男性、セールスマネージャー、6&000
1989,8,10、女性、メイクアップアーティスト、8 $ 500
#1991,10,10、男性、バックエンドの開発、13&500
1992,10,7、女性、フロントエンド設計、6&500
1985,6,15、男性、データアナリスト、18&000

参照だけのためのデータセット!
彼が使用することはできません!
2019年11月で発言。

「「」

データを処理する前に、最初の観測データは、解決する方法を考え、次のような特徴があります。

1.データ収集は説明の最初の数行の先頭から最初の行は、実際にデータセットのソースではありませんが、あなたは問題がデータを読み込むときに何に注意を払う必要があります。

2.行の最後には、3データは、まだデータの3行を読んだ後回避する方法、データを読む必要がありません。

3.データの中間部分は、第4行番号#の添加は、変化に対処する方法、データを読み取るための迂回必要性を示す前

4.データセット収入ライン、桁区切り文字はフィールドは、通常の数値データに読み込まれる方法です&

年、月、日を三つのフィールドの場合5.はそれを行う方法を、新たに誕生日のフィールドとして解析しました。

中国を含む6データセットは、発生しますコーディングエラーを含む中国語テキストファイルを読んで、一般的に解決するものです。

 

PDとしてインポートパンダ
TEST_DATA = pd.read_table(r'D:\ data_test01.txt '9月='、 'ヘッダ=' INFER」、
      のskipRows = 2、skipfooter = 3、parse_dates = { '誕生日':[0、 1,2]}、
      コメント= '#'、エンコード= 'UTF-8'、数千= '&'、エンジン= 'のpython')
TEST_DATA

 

でる:

 

 

 

 

 

ここではサイドノートUTF-8エンコーディングの問題:エンコードがUTF-8間違いなし使用すべきである。しかし、私は、UTF-8コーディングの問題を言うことがいかに従事し始めたとき、私は多くの方法が機能しません相談、後で参照一部の人々は変更を経験し、

エンコーディング=「ISO-8859-1」の場合、次の表示は、少なくとも与えられていない、文字化けの方法になりました。私は(私もUTF-8のファイルコンテンツのエンコーディングを変更)に対処する方法を見つけることができませんでした勉強に多くの時間を費やしました。

その後、我々は、txtファイルを扱っていることを示唆し、書籍に関連する1つを参照してください、あなただけのUTF-8が有効ではない=内部のセットエンコードでTXTでエンコーディングを変更することができ、それは、ファイルを保存する必要があり、UTF-8エンコード形式次のように、元のファイルを置き換えます。

 

その後、再び実行して、彼らは正常な結果に来て、経験が今の中国のコーディングの問題との契約を考えることができます。

 

おすすめ

転載: www.cnblogs.com/tinglele527/p/11777028.html