Numpy学习

1 Numpy 介绍与应用

1-1Numpy是什么：

NumPy 是一个运行速度非常快的数学库，一个开源的的python科学计算库，主要用于数组、矩阵计算，包含：

一个强大的N维数组对象 ndarray
广播功能函数
整合 C/C++/Fortran 代码的工具
线性代数、傅里叶变换、随机数生成等功能

1-2 为什么选择Numpy

对于同样的数值计算任务，使用Numpy比直接编写原生python代码的优点有：

1-2-1 代码更简洁

Numpy直接以数组、矩阵为粒度计算并且支撑大量的数学函数，而Python需要用for循环从底层实现

1-2-2 性能更高效

Numpy的数组存储效率和输入输出计算性能，比Python使用List或者嵌套List好很多

注意：Numpy的数据存储和Python原生的List是不一样的
加上Numpy的大部分代码都是C语言实现的，这是Numpy比纯Python代码高效的原因

2 NumPy Ndarray 对象

NumPy 最重要的一个特点是其 N 维数组对象 ndarray，它是一系列同类型数据的集合，以 0 下标为开始进行集合中元素的索引。

ndarray 对象是用于存放同类型元素的多维数组，其中的每个元素在内存中都有相同存储大小的区域。
ndarray 对象采用了数组的索引机制，将数组中的每个元素映射到内存块上，并且按照一定的布局对内存块进行排序（行或列）

ndarray 内部由以下内容组成：

一个指向数据（内存或内存映射文件中的一块数据）的指针；
数据类型或 dtype，描述在数组中的固定大小值的格子；
一个表示数组形状（shape）的元组，表示各维度大小的元组；
一个跨度元组（stride），其中的整数指的是为了前进到当前维度下一个元素需要"跨过"的字节数。

3 Numpy 数据类型：

numpy 支持的数据类型比 Python 内置的类型要多很多，基本上可以和 C 语言的数据类型对应上，其中部分类型对应为 Python 内置的类型.

常用 NumPy 基本类型

名称描述
bool_ :【布尔型数据类型（True 或者 False）】
int_ : 【默认的整数类型（类似于 C 语言中的 long，int32 或 int64）】
intc :【与 C 的 int 类型一样，一般是 int32 或 int 64】
intp :【用于索引的整数类型（类似于 C 的 ssize_t，一般情况下仍然是 int32 或 int64）】
int8 :【字节（-128 to 127）】
int16 :【整数（-32768 to 32767）】
int32 :【整数（-2147483648 to 2147483647）】
int64 ：【整数（-9223372036854775808 to 9223372036854775807）】
uint8 ：【无符号整数（0 to 255）】
uint16 ：【无符号整数（0 to 65535）】
uint32 ：【无符号整数（0 to 4294967295）】
uint64 ：【无符号整数（0 to 18446744073709551615）】
float_ float64 ：【类型的简写】
float16 ：【半精度浮点数，包括：1 个符号位，5 个指数位，10 个尾数位】
float32 ：【单精度浮点数，包括：1 个符号位，8 个指数位，23 个尾数位】
float64 ：【双精度浮点数，包括：1 个符号位，11 个指数位，52 个尾数位】
complex_ complex128：【类型的简写，即 128 位复数】
complex64 ：【复数，表示双 32 位浮点数（实数部分和虚数部分）】
complex128 ：【复数，表示双 64 位浮点数（实数部分和虚数部分）】

4 Numpy 数组属性

在 NumPy中，每一个线性的数组称为是一个轴（axis），也就是维度（dimensions）。

比如说，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。

Pandas学习

当然，做这些的前提是首先把文件准备好

文件准备

文件太长，故只截取了部分，当然，此文件可自行弄类似的也可以！
在这里插入图片描述

1 pandas新增数据列

在进行数据分析时，经常需要按照一定条件创造新的数据列，然后再进一步分析

直接赋值
df.apply()方法
df.assign()方法
按条件进行分组分别赋值

# -*- coding = utf-8 -*-
# @Time : 2022/6/28 16:20
# @Author : lxw_pro
# @File : pandas新增数据列.py
# @Software : PyCharm

# 1:
import pandas as pd

# 读取数据
lxw = pd.read_csv('sites.csv')

# print(lxw.head())

df = pd.DataFrame(lxw)

# print(df)

df['lrl'] = df['lrl'].map(lambda x: x.rstrip('%'))

# print(df)

df.loc[:, 'jf'] = df['yye'] - df['sku_cost_prc']

# 返回的是Series
# print(df.head())


# 2:
def get_cha(n):
    if n['yye'] > 5:
        return '高价'
    elif n['yye'] < 2:
        return '低价'
    else:
        return '正常价'


df.loc[:, 'yye_type'] = df.apply(get_cha, axis=1)

# print(df.head())

print(df['yye_type'].value_counts())


# 3:
# 可同时添加多个新列

print(df.assign(
    yye_bh=lambda x: x['yye']*2-3,
    sl_zj=lambda x: x['sku_cnt']*6
).head(10))


# 4:

# 按条件先选择数据，然后对这部分数据赋值新列

# 先创建空列
df['zyye_type'] = ''

df.loc[df['yye'] - df['sku_cnt']>8, 'zyye_type'] = '高'
df.loc[df['yye'] - df['sku_cnt'] <= 8, 'zyye_type'] = '低'

print(df.head())

下面分别是每个小问对应运行效果：

1：
在这里插入图片描述

2：
在这里插入图片描述

3：
在这里插入图片描述

4：
在这里插入图片描述

2 Pandas数据统计函数

# Pandas数据统计函数

'''
1-汇总类统计
2-唯一去重和按值计数
3-相关系数和协方差

'''
import pandas as pd

lxw = pd.read_csv('nba.csv')

# print(lxw.head(3))

# 1:

# 一下子提取所有数字列统计结果
print(lxw.describe())

# 查看单个Series的数据
print(lxw['Age'].mean())

# 年龄最大
print(lxw['Age'].max())

# 体重最轻
print(lxw['Weight'].min())


# 2:

# 2-1 唯一性去重【一般不用于数值项，而是枚举、分类项】
print(lxw['Height'].unique())

print(lxw['Team'].unique())


# 2-2 按值计算
print(lxw['Age'].value_counts())

print(lxw['Team'].value_counts())


# 3:

# 应用：股票涨跌、产品销量波动等等

'''
【来自知乎】
对于两个变量X、Y：
1-协方差：衡量同向程度程度，如果协方差为正，说明X、Y同向变化，协方差越大说明同向程度越高；
        如果协方差为负，说明X、Y反向运动，协方差越小说明方向程度越高。
2-相关系数：衡量相似度程度，当他们的相关系数为1时，说明两个变量变化时的正向相似度最大，
            当相关系数为-1，说明两个变化时的反向相似度最大。
              

'''

# 协方差矩阵：
print(lxw.cov())

# 相关系数矩阵：
print(lxw.corr())

# 单独查看年龄和体重的相关系数
print(lxw['Age'].corr(lxw['Weight']))

# Age和Salary的相关系数
print(lxw['Age'].corr(lxw['Salary']))

# 注意看括号内的相减
print(lxw['Age'].corr(lxw['Salary']-lxw['Weight']))

1:
在这里插入图片描述

2-1:
在这里插入图片描述
部分2-2：

3：

3 Pandas对缺失值的处理

特殊Excel的读取、清洗、处理

# -*- coding = utf-8 -*-
# @Time : 2022/6/28 20:00
# @Author : lxw_pro
# @File : pandas缺失值处理-7.py
# @Software : PyCharm

# Pandas对缺失值的处理
'''
函数用法：
1-isnull和notnull: 检测是否有控制，可用于dataframe和series
2-dropna: 丢弃、删除缺失值
2-1 axis: 删除行还是列，{0 or 'index', 1 or 'columns'}, default()
2-2 how: 如果等于any， 则任何值都为空，都删除；如果等于all所有值都为空，才删除
2-3 inplace: 如果为True，则修改当前dataframe,否则返回新的dataframe
2-4 value: 用于填充的值，可以是单个值，或者字典（key是列名，value是值）
2-5 method: 等于ffill使用前一个不为空的值填充forword fill;等于bfill使用后一个不为空的值填充backword fill
2-6 axis: 按行还是按列填充，{0 or "index", 1 or "columns"}
2-7 inplace: 如果为True则修改当前dataframe，否则返回新的dataframe

'''

# 特殊Excel的读取、清洗、处理

import pandas as pd
# 1: 读取excel时，忽略前几个空行

stu = pd.read_excel("Score表.xlsx", skiprows=14)     # skiprows: 控制在几行以下

print(stu)

# 2: 检测空值
print(stu.isnull())

print(stu['成绩'].isnull())

print(stu['成绩'].notnull())

# 筛选没有空成绩的所有行
print(stu.loc[stu['成绩'].notnull(), :])


# 3: 删除全是空值的列：

# axis: 删除行还是列，{0 or 'index', 1 or 'columns'}, default()
# how: 如果等于any， 则任何值都为空，都删除；如果等于all所有值都为空，才删除
# inplace: 如果为True则修改当前dataframe，否则返回新的dataframe
stu.dropna(axis="columns",  how="all", inplace=True)

print(stu)


# 4: 删除全是空值的行：

stu.dropna(axis="index", how="all", inplace=True)

print(stu)


# 5: 将成绩列为空的填充为0分：
stu.fillna({
    
    "成绩": 0})

print(stu)


# 同上：
stu.loc[:, '成绩'] = stu['成绩'].fillna(0)

print(stu)


# 6: 将姓名的缺失值填充【使用前面的有效值填充，用ffill： forward fill】
stu.loc[:, '姓名'] = stu['姓名'].fillna(method='ffill')

print(stu)


# 7: 将清洗好的Excel保存:
stu.to_excel("Score成绩_clean.xlsx", index=False)