Python データ分析用の Pandas ライブラリ
1.パンダの紹介
Pandas は Python 用のデータ分析パッケージです。2008 年 4 月に AQR Capital Management によって最初に開発され、2009 年末にオープン ソースとしてリリースされました。現在、Python データ パッケージに焦点を当てた PyData 開発チームによって開発および保守されています。これは PyData プロジェクトの一部です。Pandas はもともと財務データ分析ツールとして開発されたため、時系列分析を適切にサポートします。Pandas の名前は、パネル データ (パネル データ) と Python データ分析 (データ分析) に由来しています。パネル データは経済学におけるキューブを表す用語であり、Pandas でもパネル データ タイプが提供されます。
pandas は NumPy に基づいており、pandas ツールはデータ分析タスクを解決するために作成されました。Pandas には、多数のライブラリといくつかの標準データ モデルが組み込まれており、大規模なデータセットを効率的に操作するために必要なツールが提供されます。pandas は、データを迅速かつ簡単に処理できるようにする関数とメソッドを多数提供します。すぐにわかるように、これは Python を強力で効率的なデータ分析環境にするものの 1 つです。
2. Pandasライブラリのインストール
pandas はサードパーティのライブラリであり、使用するには別途インストールする必要があります。pip のインストールが推奨されます。
pip install pandas
通常、次のように pandas モジュールをインポートします。
import pandas as pd
パンダを pd と略すのはほぼ不文律となっています。したがって、pd を見る限り、それはパンダに関連付けられているはずです。
3.パンダのデータ構造
-
シリーズ:
Numpy の 1 次元配列に似た 1 次元配列。この 2 つは、Python の基本データ構造である List にもよく似ています。シリーズでさまざまなデータ型、文字列、ブール値、数値などを保存できるようになりました。 -
時系列:
時間によってインデックス付けされたシリーズ。 -
DataFrame:
2 次元の表形式のデータ構造。多くの関数は R の data.frame に似ています。DataFrame は Series のコンテナーとして理解できます。 -
パネル:
DataFrame コンテナーとして理解できる 3 次元配列。 -
Panel4D:
Panel のような 4 次元データ コンテナです。 -
PanelND:
Panel4D のような N 次元の名前付きコンテナのモジュールを作成できるファクトリ コレクションがあります。
4. Series および DataFrame データ構造の使用
pandas を使用するには、まずその 2 つの主要なデータ構造、Series (1 次元データ) と DataFrame (2 次元データ) に精通する必要があります。
Series (1 次元データ) と DataFrame (2 次元データ) の使用例については、詳しくまとめられたこの記事を参照してください。
5. その他参考となるウェブサイト
パンダ公式ウェブサイト:https://pandas.pydata.org/
パンダ中国語ウェブサイト: https://www.pypandas.cn/
パンダの github: https://github.com/pandas-dev/pandas