データ解析機能の概要の一部を使用パンダ

Pd等の輸入パンダ
NPとしてインポートnumpyの

パンダ二つの主要なデータ構造がありますシリーズとデータフレームは、
シリーズは、データのセットとインデックスのセットを含むオブジェクトの一次元アレイであり、それはインデックス配列のセットとして理解することができます。
データフレームは、テーブル型のデータ構造です。これは、異なるタイプの整然とした列と列の値を提供します。

DF:パンダDATAFRAMEオブジェクト
S:パンダシリーズオブジェクト

データインポート:


  pd.read_csv(ファイル名):輸入csvファイルのデータから、
  pd.read_table(ファイル名):定義された区切りのテキストファイルからデータをインポート;
  pd.read_excel(ファイル名):Excelファイルからデータをインポート;
  pd.read_sql(クエリ、 connection_object):インポートSQLテーブル/データベースからのデータ;
  pd.read_json()json_string:輸入JSON形式のデータ列から、
  pd.read_html(URL):URLL、文字列、またはHTMLファイルを解析;
  pd.read_clipboard():クリップボードからコンテンツを取得するステップと、
  pd.DataFrame(辞書):オブジェクトディクショナリからデータをインポート。

データのエクスポート:

 

  df.to_csv(ファイル名):CSVファイルにデータをエクスポートする。
  df.excel(ファイル名):Excelエクスポートデータファイルへ;
  df.to_sql(table_nname、connection_object):エクスポートデータSQLテーブルに、
  df.json(ファイル名):でJSONテキストファイル形式にデータをエクスポートします。

オブジェクトを作成します。


  pd.DataFrame(np.random.rand(20,5)):オブジェクトを作成するために、直ちに数が20行5列から成るデータフレーム;
  pd.Series(my_listという)イテラブルmy_listというシリーズからオブジェクトを作成し、
  df.index = pd.date_range( '1900年1月30日 '、期間= df.shape [0]): 日付インデックスが増加します。

  REINDEXを:インデックスとの組み合わせに有用な再インデックスは、要素の再配置は、それだけインデックスに再配置する必要があるときに、したがって、要素は同じままで、次のインデックスと混乱の要素をソート後のインデックスとして使用することができます。

 

見ます:


  )(df.info:参照インデックス、データ・タイプとメモリ情報、
  df.tail():オブジェクトビューデータフレームの最後のn行;
  df.shape():行と列の数が表示;
  df.head():参照データフレーム最初のn行オブジェクト。
  df.describe():参照要約統計数値列;
  s.value_counts(dropna =偽):参照シリーズのユニークな値とオブジェクト数;
  df.apply(pd.Seices.value_counts):参照してください。計数は、各列のデータフレームのユニークな値オブジェクト。

 

データ選択:


  DF [COL]:カラム名、およびシリーズの形で列を返す;
  DF [COL1、COL2]:戻りは複数の列を形成DATAFRAME;
  s.iloc [0]:位置によって選択データ;
  s.loc [ ' index_one「]:データによって選択されたインデックス;
  df.iloc [0:]:最初の行を返します。

 

データクレンジング:

  df.columns = [ 'A'、 'B'、 'C​​']:名前変更列名

  pd.isnull():NULLデータフレームの検査対象と戻りブール配列。

  pd.notnull():データフレームオブジェクトの非ヌル値、および戻りブール配列チェック
  df.dropnaを():すべての行がヌル値を含む削除します。

  df.fillna(X):すべてのヌル値Xを持つデータフレームオブジェクトを置き換え、

  s.astype(フロート):シリーズフロートにデータ型を変更します。

  s.replace(1、「1」) : 「1」の値を持つ代わりに、全ての1に等しい
  df.rename(:X列=ラムダX + 1): バッチ変更列名。

  df.set_index(「column_one」):インデックス列を変更します。

 

データ処理:

  DF [DF [COL]> 0.5 ]: カラムラインが0.5 COLよりも大きい値を選択し、
  df.sort_values(COL1):デフォルトで昇順にCOL1列のソートデータ、;
  df.groupby(COL):戻り列COLは、Aのように行っグループ化されたオブジェクトをGROUPBY。

  df.groupby(COL1).agg(np.meanは):コラムCOL1パケットによりすべての列の平均を返します。

  df.pivot_table(インデックス= COL1、値= [COL2、COL3]、aggfunc = MAX):カラムCOL1によってグループを作成し、COL2及びCOL3のピボットテーブルの最大値を算出します。

  data.apply(np.mean):データフレーム・アプリケーション機能の各列のnp.mean

 

データマージ:


  df1.append(DF2):DF2テールDF1のに行を追加
  df.concat([DF1、DF2] :軸= 1) DF2 DF1テールに列を追加
  = ON df1.join(DF2、 COL1、どのように=「内部」) :列のSQL実行形式はDF1とDF2は、結合列

 

統計データ:


  df.describe():要約統計量は、列のデータ値を表示します。

  df.meanは():列は全ての平均値を返し

  df.corr()戻り値:行と列の間の相関係数。

  df.count()は、各列の非ヌル値の数を返します。

  df.max()は、各列の最大値を返し

  df.min()戻り値:各列の最小値と、

  df.median()は、各列のビット数を返します。

  df.stdは():各列の標準を返します。

 

パンダは、データ型をサポート:


  int型のint型
  フロートフロート
  ブールブール
  オブジェクトの文字列型の
  カテゴリー種類
  日時タイプの時間

 

その他:


  df.astypes:データフォーマット変換
  df.value_counts:同じ値の数カウント
  df.histを():ビデオヒストグラム
  df.get_dummiesを:ワンホットは、マトリックス型のフォーマット属性に翻訳属性を符号化します。例えば:三色RGBは、[1 0 0]として符号化された赤。

公開された296元の記事 ウォンの賞賛221 ビュー540 000 +

おすすめ

転載: blog.csdn.net/qq_36387683/article/details/101542889