利用pandas进行数据分析

目录

简单Pandas介绍

完整代码实例


简单Pandas介绍


Pandas是一个强大的数据分析库,它提供了数据结构和函数,使数据清洗、转换、分析更加便捷。以下是一个使用Pandas进行数据分析的简单例子,假设我们有一个包含学生考试成绩的CSV文件。

首先,导入Pandas库和读取数据:
 

import pandas as pd

# 读取CSV文件
df = pd.read_csv('student_scores.csv')

假设CSV文件的结构如下:

姓名,科目,分数
张三,数学,85
李四,语文,90
王五,数学,78
...

接下来,进行基本的数据分析:
 

# 显示数据前几行
print(df.head())

# 查看数据信息
print(df.info())

# 描述性统计信息
print(df.describe())

这些基本的分析将展示数据的结构、类型以及一些统计信息。接下来,可以进行更复杂的数据分析,例如按科目计算平均分:

# 按科目计算平均分
avg_scores_by_subject = df.groupby('科目')['分数'].mean()
print(avg_scores_by_subject)

最后,使用Matplotlib绘制图表,例如绘制各科目平均分的条形图:

import matplotlib.pyplot as plt

# 绘制条形图
avg_scores_by_subject.plot(kind='bar', color='skyblue')
plt.title('各科目平均分')
plt.xlabel('科目')
plt.ylabel('平均分数')
plt.show()

这个例子演示了如何使用Pandas进行数据分析,包括数据读取、基本信息查看、描述性统计和简单的数据可视化。在实际应用中,可以根据具体需求进行更复杂的数据处理和分析操作。

完整代码实例


假设有一个名为 `student_scores.csv` 的 CSV 文件,包含学生的姓名、科目和分数。下面是一个完整的示例代码,演示如何使用 Pandas 进行数据分析:
 

import pandas as pd
import matplotlib.pyplot as plt

# 读取CSV文件
df = pd.read_csv(r'D:\untitled13\9.2\.vscode\student_scores.csv')

# 显示数据前几行
print("数据前几行:")
print(df.head())

# 查看数据信息
print("\n数据信息:")
print(df.info())

# 描述性统计信息
print("\n描述性统计信息:")
print(df.describe())

# 按科目计算平均分
avg_scores_by_subject = df.groupby('科目')['分数'].mean()
print("\n按科目计算平均分:")
print(avg_scores_by_subject)

# 绘制各科目平均分的条形图
avg_scores_by_subject.plot(kind='bar', color='skyblue')
plt.title('各科目平均分')
plt.xlabel('科目')
plt.ylabel('平均分数')
plt.show()

在这个示例中,我们首先读取了包含学生成绩信息的 CSV 文件,然后展示了数据的前几行、数据的基本信息和描述性统计信息。接着,通过 `groupby` 方法按科目计算了平均分,并使用 Matplotlib 绘制了各科目平均分的条形图。

请确保你有一个名为 `student_scores.csv` 的 CSV 文件,并根据实际情况调整文件路径和数据字段的名称。这个例子只是一个简单的入门示例,实际应用中可能需要更多的数据清理、特征工程和复杂的分析操作。

文件名:student_scores.csv 

姓名,科目,分数
张三,数学,85
李四,语文,90
王五,数学,78

把下面里面的文件路径换成你的  student_scores.csv   的绝对路径

df = pd.read_csv(r'D:\untitled13\9.2\.vscode\student_scores.csv')

 

猜你喜欢

转载自blog.csdn.net/qq_50942093/article/details/134795503