版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/leadingsci/article/details/89303866
文章目录
8.1 算术运算
import pandas as pd
import numpy as np
df = pd.read_csv(r"C:\Users\leadi\Python\01.python\input\train-pivot.csv",encoding="gbk")
df
df = df.drop(labels=["用户ID","客户分类","区域","是否省会"],axis = 1)
df = df.rename(columns = {"7月销量":"C1","8月销量":"C2","9月销量":"C3"})
df
相加
df["C1"] + df["C2"]
输出
0 26
1 64
2 9
3 15
4 21
dtype: int64
相减
df["C1"] - df["C2"]
相乘
df["C1"] * df["C2"]
相除
df["C1"] / df["C2"]
输出
0 0.30000
1 1.37037
2 8.00000
3 0.87500
4 0.75000
dtype: float64
相加 固定值
df["C1"] +2
输出
0 8
1 39
2 10
3 9
4 11
Name: C1, dtype: int64
8.2 比较运算
df["C1"] > df["C2"]
0 False
1 True
2 True
3 False
4 False
dtype: bool
- <
- =
- !=
8.3 汇总运算
8.3.1 count非空值计数
df.count()
输出,默认为列计算
C1 5
C2 5
C3 5
dtype: int64
计算每一列的非空值个数
df.count(axis = 0) # 默认
计算每一行的非空值个数
df.count(axis = 1)
输出
0 3
1 3
2 3
3 3
4 3
dtype: int64
8.3.2 sum求和
df.sum()
输出,默认为列求和
C1 67
C2 68
C3 61
dtype: int64
行求和
df.sum(axis =1)
输出
0 26
1 99
2 17
3 29
4 25
dtype: int64
某列求和
df["C1"].sum()
输出
67
8.3.3 mean求均值
df.mean()
# 输出,默认为列求值
C1 13.4
C2 13.6
C3 12.2
dtype: float64
行求均值
df.mean(axis = 1)
输出
0 8.666667
1 33.000000
2 5.666667
3 9.666667
4 8.333333
dtype: float64
某列求均值
df["C1"].mean()
输出
13.4
8.3.4 求最大值
求某列
df.max() # 求列
df.max(axis =1) # 求行
df["C1"].max() # 某列
8.3.5 求最小值
df.min
8.3.6 median 求中位数
df.median
8.3.7 mode求众数
df.mode()
8.3.8 var求方差
df.var()
8.3.9 std求标准差
df.std()
8.3.10 quantile 求分位数
df.quantile()
df.quantile()
输出
C1 8.0
C2 12.0
C3 8.0
Name: 0.5, dtype: float64
df.quantile(0)
df.quantile(0.25)
df.quantile(0.75)
df.quantile(1)
8.4 相关性运算
相关性常用来衡量两个事物之间的相关程度,越接近1,越强;
两两之间的相关性
df.corr()