Python 2.x でのデータ分析に pandas モジュールを使用する方法
概要:
pandas は、データ分析とデータ処理のプロセスで非常に強力で一般的に使用される Python ライブラリです。高速かつ効率的なデータ処理と分析を可能にするデータ構造とデータ分析ツールを提供します。この記事では、Python 2.x でデータ分析にパンダを使用する方法を紹介し、いくつかのコード例を読者に提供します。
pandas をインストールする:
開始する前に、まず pandas ライブラリをインストールする必要があります。ターミナルまたはコマンド プロンプトから次のコマンドを入力してインストールできます。
pip install pandas
データ構造:
pandas は 2 つの主要なデータ構造を提供します: 1) シリーズ、2) データフレーム。
Series は、Excel の列に似た、インデックス付き 1 次元配列構造です。コード例:
import pandas as pd
# 创建一个Series对象
data = pd.Series([1, 3, 5, np.nan, 6, 8])
print(data)
出力結果:
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
DataFrame は、Excel のテーブルに似た 2 次元のテーブル構造です。コード例:
import pandas as pd
import numpy as np
# 创建一个DataFrame对象
data = pd.DataFrame({
"A": [1, 2, 3, 4],
"B": pd.Timestamp('20130102'),
"C": pd.Series(1, index=list(range(4)), dtype='float32'),
"D": np.array([3] * 4, dtype='int32'),
"E": pd.Categorical(["test", "train", "test", "train"]),
"F": 'foo'
})
print(data)
出力結果:
A B C D E F
0 1 2013-01-02 1.0 3 test foo
1 2 2013-01-02 1.0 3 train foo
2 3 2013-01-02 1.0 3 test foo
3 4 2013-01-02 1.0 3 train foo
データの読み取りと書き込み:
pandas は、CSV ファイル、Excel ファイル、SQL データベースなどを含むさまざまなデータ形式を読み取りおよび書き込みできます。
CSVファイル読み込み例:
import pandas as pd
# 从CSV文件中读取数据
data = pd.read_csv('data.csv')
print(data.head())
Excelファイルの読み込み例:
import pandas as pd
# 从Excel文件中读取数据
data = pd.read_excel('data.xlsx')
print(data.head())
データ分析と処理:
pandas は、データ分析と処理のための多くの強力な機能とメソッドを提供します。
データの統計分析の例:
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 统计描述性统计信息
print(data.describe())
# 计算各列之间的相关系数
print(data.corr())
データのフィルタリングと並べ替えの例:
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 筛选出满足条件的数据
filtered_data = data[data['age'] > 30]
# 按照某列进行排序
sorted_data = data.sort_values('age')
print(filtered_data.head())
print(sorted_data.head())
データのグループ化と集計の例:
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 按照某一列进行分组
grouped_data = data.groupby('gender')
# 计算每组的平均值
mean_data = grouped_data.mean()
print(mean_data)
CSV または Excel ファイルにデータを書き込む例:
import pandas as pd
# 读取数据
data = pd.read_csv('data.csv')
# 将数据写入到CSV文件中
data.to_csv('output.csv', index=False)
# 将数据写入到Excel文件中
data.to_excel('output.xlsx', index=False)
概要:
pandas は、Python 2.x で一般的に使用されるデータ分析ライブラリです。この記事では、pandas のインストール方法、一般的なデータ構造、データの読み取りと書き込みの方法、およびデータの分析と処理の一般的な方法を紹介します。読者は、自分のニーズに応じてデータの分析と処理にパンダを柔軟に使用できます。
以上、Python 2.x でのデータ分析に pandas モジュールを使用する方法の紹介でした。
上記は、Python 2.x でのデータ分析に pandas モジュールを使用する方法の詳細です。