Python データ分析と視覚化トレーニング - Excel チップ データ セットのデータ分析と視覚化

1. 実験目的

このトレーニングは主に、チップ データ セットのデータ分析と視覚化に関するものです。

2. 実験データ

実験用チップ データ セットは、Python ライブラリ Seaborn に付属するデータから取得されており、Excel タイプのデータ セットに変換されています

画像の説明を追加してください

3. 実験運用

1.インポートモジュール

#导入实验需要的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']#用来显示中文标签
plt.rcParams['axes.unicode_minus']=False#用来显示负号
%matplotlib inline

2. データを取得します
データをインポートし、最初の 5 行を表示します。

fdata=pd.read_excel('C:/Users/leglon/Desktop/ch4/tips.xls')#读取数据,在此需要导入xls的环境
fdata.head()#输出前五行

画像の説明を追加してください

ここでは、事前に xlrd 環境をインストールする必要があります。そうしないと、エラーが簡単に発生する可能性があります: ImportError: Missing option dependency 'xlrd'. Excel サポート用に xlrd >= 1.0.0 をインストールしてください pip または conda を使用して xlrd をインストールしてください。この問題を解決するには、次のようにします。 cmd を開いて
: を入力しpip install xlrd、インストールが完了するまで待ちます。または、anaconda に移動して、xlrd 環境をダウンロードしてインストールします。
手順: anaconda—>環境—>tensorflow—>インストールされていません。「xlrd」と入力し、ポップアップ オプションをチェックして、[適用]をクリックします。もう一度開いてください。
画像の説明を追加してください

3. データ情報の表示

fdata.describe()#查看数据描述

画像の説明を追加してください
4. 列名を中国語に変更します。

#修改为汉字,并且显示前五行数据
fdata.rename(columns={
    
    'total_bill':'消费总额','tip':'小费','sex':'性别','smoker':'是否吸烟','day':'星期','time':'聚餐时间段','size':'人数'},inplace=True)
fdata.head()

画像の説明を追加してください
5. 1 人当たりの消費量の上位 5 行を表示する

#人均消费,显示前五行
fdata['人均消费']=round(fdata['消费总额']/fdata['人数'],2)
fdata.head()

6. データセット内で喫煙男性の一人当たりの消費量が 15 を超えるデータを検索します。

#查询吸烟男性中消费大于15的数据
fdata.query('是否吸烟=="Yes"&性别=="Male"&人均消费>15')

画像の説明を追加してください
7. 総消費量とチップの関係を確認する

fdata.plot(kind='scatter',x='消费总额',y='小费')#查看消费总额与小费的关系

画像の説明を追加してください

この図から、チップと総消費額の間には正の相関関係があることがわかります。

8. 喫煙とチップの関係を確認する

fdata.plot(kind='scatter',x='是否吸烟',y='小费')#查看是否吸烟与小费的关系

画像の説明を追加してください
この図から、喫煙とチップの関係にはほとんど影響がないことがわかります。

9. 男女の総消費量データを比較する

fdata.groupby('性别')['消费总额'].mean()

画像の説明を追加してください

男性の方が女性よりも摂取量が多いことが分かります。

10. 寛大さが男女間でどのように比較されるかを確認する

#查看性别的慷慨程度对比
fdata.groupby('性别')['小费'].mean()

画像の説明を追加してください
男性は女性よりも多くのチップを払います。
11. 週とチップの関係を分析する

#分析星期与小费的关系
print(fdata['星期'].unique())#显示星期的取值
r=fdata.groupby('星期')['小费'].mean()
fig=r.plot(kind='bar',x='星期',y='小费',fontsize=12,rot=30)
fig.axes.title.set_size(16)

画像の説明を追加してください
この図から、木曜、金曜よりも土曜、日曜の方がチップが多いことがわかります。

12. 性別と喫煙の組み合わせの寛大さを分析する

#分析性别与吸烟组合的慷慨度
r=fdata.groupby(['性别','是否吸烟',])['小费'].mean()
fig=r.plot(kind='bar',x=['性别','是否吸烟'],y='小费',fontsize=12,
rot=30)
fig.axes.title.set_size(16)

画像の説明を追加してください
非喫煙男性は喫煙女性よりも寛大でチップも多く、非喫煙女性は喫煙女性よりも寛大であることがわかります。

13. 夕食の時間とチップの関係を分析する

#分析聚餐时间段与小费的关系
r=fdata.groupby(['聚餐时间段'])['小费'].mean()
fig=r.plot(kind='bar',x='聚餐时间段',y='小费',fontsize=15,rot=30)
fig.axes.title.set_size(16)

画像の説明を追加してください

写真から、昼食時よりも夕食時のチップが大きいことがわかります。

14. 人数とチップの関係を分析する

#分析人数与小费的关系
r=fdata.groupby(['人数',])['小费'].mean()
fig=r.plot(kind='bar',x='人数',y='小费',fontsize=15,rot=30)
fig.axes.title.set_size(16)

画像の説明を追加してください

写真から、食事会の人数が増えるほど、より多くのチップが与えられることがわかります。

4. まとめ

データの視覚化の学習は私たちにとって大きな役割を果たしており、データを分析することで重要な情報を得ることができ、イベントをより深く理解し、イベントに対応するためのより多くの方法を得ることができます。

おすすめ

転載: blog.csdn.net/qq_62127918/article/details/130512822