python-Numpy数据分析(二)
利用数组进行数据处理 将条件逻辑表述为数组运算
''' 利用数组进行数据处理 将条件逻辑表述为数组运算 • 列表推导的局限性 • 纯Python代码,速度不够快。 • 无法应用于高维数组 • where和where的嵌套 ''' import numpy as np import numpy.random as np_random print('通过真值表选择元素') x_arr = np.array([1.1,1.2,1.3,1.4,1.5]) y_arr = np.array([2.1,2.2,2.3,2.4,2.5]) cond = np.array([True,False,True,True,False]) result = [(x if c else y) for x, y, c in zip(x_arr, y_arr, cond)] # 通过列表推到实现 print(result) print('np.where') print(np.where(cond, x_arr, y_arr)) # 使用NumPy的where函数 print('更多where的例子') arr = np_random.randn(4,4) print(arr) print(np.where(arr>0,2,-2)) #当arr数组中的元素大于0时,设置值为2,小于0时设置值为-2 print(np.where(arr > 0, 2, arr))#当arr数组中的元素大于0时,设置值为2,小于0时设置值为arr print('np.where嵌套') cond_1 = np.array([True, False, True, True, False]) cond_2 = np.array([False, True, False, True, False]) # 传统代码如下 result = [] for i in range(len(cond)): if cond_1[i] and cond_2[i]: #cond_1和cond_2都为True则赋值为0 result.append(0) elif cond_1[i]:#cond_1为True则赋值为1 result.append(1) elif cond_2[i]:#cond_2为True则赋值为2 result.append(2) else: result.append(3)#cond_1和cond_2都为False则赋值为3 print(result) #[1, 2, 1, 0, 3] # np版本代码 result = np.where(cond_1 & cond_2, 0,np.where(cond_1, 1, np.where(cond_2, 2, 3))) print(result)
利用数组进行数据处理 数学和统计方法
''' 利用数组进行数据处理 数学和统计方法 • 数学和统计方法 类型 说明 sum 对数组中全部或某轴向的元素求和。零长度的数组的sum为0。 mean 算术平均数。零长度的数组的mean为NaN。 std, var 分别为标准差和方差,自由度可调(默认为n)。 min, max 最大值和最小值 argmin 分别为最大值和最小值的索引 cumsum 所有元素的累计和 cumprod 所有元素的累计积 ''' import numpy as np import numpy.random as np_random print('求和,求平均') arr = np.arange(10).reshape(2,5) print(arr) print(arr.mean()) #算术平均值4.5 print(arr.sum()) #求和45 print(arr.mean(axis = 1)) # 对每一行的元素求平均 [2. 7.] print(arr.sum(0)) # 对每一列元素求和,axis可以省略。[ 5 7 9 11 13] ''' cumsum: - 按列操作:a[i][j] += a[i - 1][j] - 按行操作:a[i][j] *= a[i][j - 1] cumprod: - 按列操作:a[i][j] += a[i - 1][j] - 按行操作:a[i][j] *= a[i][j - 1] ''' print('cunsum和cumprod元素的累积和') arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]]) print(arr.cumsum(0)) print(arr.cumprod(1))
利用数组进行数据处理 用于布尔型数组的方法
''' 利用数组进行数据处理 用于布尔型数组的方法 • sum对True值计数 • any和all测试布尔型数组,对于非布尔型数组,所有非0元素将会被当做True。 ''' import numpy as np import numpy.random as np_random print('正数求和') arr = np_random.randn(100) #print(arr) print((arr>0).sum()) #42 print('对数组逻辑操作') bools = np.array([False,False,True,False]) print(bools.any())# 有一个为True则返回True print(bools.all())# 有一个为False则返回False
利用数组进行数据处理 排序
''' 利用数组进行数据处理 排序 • 直接排序 • 指定轴排序 ''' import numpy as np import numpy.random as np_random print('一维数组排序') arr = np.array([2,8,6,7,4,5]) print(arr) #排序前的数组 [2 8 6 7 4 5] arr.sort() #排序后的数组 [2 4 5 6 7 8] print(arr) print('二维数组排序') arr = np.array([[2,8,6,7,4,5],[19,18,13,15,17,12]]) print(arr) arr.sort(1) # 对每一行元素做排序 print(arr) print('找位置在5%的数字') large_arr = np_random.randn(1000) large_arr.sort() print(large_arr[int(0.05 * len(large_arr))])
利用数组进行数据处理 去重以及其它集合运算
''' 利用数组进行数据处理 去重以及其它集合运算 • 去重以及其它集合运算 类型 说明 unique(x) 计算x中的唯一元素,并返回有序结果。 intersect1d(x, y) 计算x和y中的公共元素,并返回有序结果。 union1d(x, y) 计算x和y的并集,并返回有序结果。 in1d(x, y) 得到一个表述"x的元素是否包含于y"的布尔型数组 setdiff1d(x, y) 集合的差,即元素在x中且不在y中 setxor1d(x, y) 集合的异或,即存在于一个数组中但不同时存在于两个数组中的元素 ''' import numpy as np import numpy.random as np_random print('用unique函数去重') name = np.array([4,2,3,5,1,4,2]) print(np.unique(name)) #结果去重并排序 [1 2 3 4 5] print('查找数组元素是否在另一数组') value = np.array([6,3,5,2,6,4,5]) print(np.in1d(value,[2,3,6])) # [ True True False True True False False]
线性代数
''' 线性代数 • 常用的numpy.linalg函数 I 类型 说明 diag 以一维数组的形式返回方阵的对角线(或非对角线元素),获将一维数组转换 为方阵(非对角线元素为0)。 dot 矩阵乘法 trace 计算对角线元素的和 det 计算矩阵行列式 eig 计算方阵的特征值和特征向量 inv 计算方阵的逆 pinv 计算矩阵的Moore-Penrose伪逆 qr 计算QR分解 svd 计算奇异值分解 solve 解线性方程Ax = b,其中A为一个方阵。 lstsq 计算Ax = b的最小二乘解 ''' import numpy as np import numpy.random as np_random from numpy.linalg import inv,qr print('矩阵乘法') x = np.array([[1,2,3],[4,5,6]]) y = np.array([[3,2],[4,3],[5,4]]) print('x.dot(y)') print(x.dot(y)) print('np.dot(x,np.ones(3))') print(np.dot(x,np.ones(3))) x = np_random.randn(5,5) print(x) print('矩阵求逆') mat = x.T.dot(x) print(inv(mat)) # 矩阵求逆 print(mat.dot(inv(mat))) print(mat.dot(inv(mat))) # 与逆矩阵相乘,得到单位矩阵。 print('矩阵消元') print(mat) q, r = qr(mat) print(q) print(r)
随机数生成
''' 随机数生成 类型 说明 seed 确定随机数生成器的种子 permutation 返回一个序列的随机排列或返回一个随机排列的返回 shuffle 对一个序列就地随机乱序 rand 产生均匀分布的样本值 randint 从给定的上下限范围内随机选取整数 randn 产生正态分布(平均值为0,标准差为1) binomial 产生二项分布的样本值 normal 产生正态(高斯)分布的样本值 beta 产生Beta分布的样本值 chisquare 产生卡方分布的样本值 gamma 产Gamma分布的样本值 uniform 产生在[0, 1]中均匀分布的样本值 ''' import numpy as np import numpy.random as np_random from random import * print('正态分布随机数') name = np.random.normal(size=(4,4)) print(name)
数组重塑
''' 数组重塑 reshape重塑数组 • -1自动推导维度大小 ''' import numpy as np print("将一维数组转换为二维数组") arr = np.arange(8) print(arr.reshape((4, 2))) #将一维数组转为二维数组 print(arr.reshape((4,2)).reshape((2,4))) #将二维数组行列置换 print('维度大小自动推到') arr = np.arange(15) print(arr.reshape((5,-1))) print('获取维度信息并应用') other_arr = np.ones((3,5)) print(other_arr.shape) print(arr.reshape(other_arr.shape)) print('高维数组拉平,就是讲多维数组变为一维数组') arr = np.arange(15).reshape(5,3) print(arr.ravel()) #[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14]
数组的合并和拆分
''' 数组合并和拆分 ''' import numpy as np import numpy.random as np_random print('连接两个二维数组') arr1 = np.array([[1, 2, 3], [4, 5, 6]]) arr2 = np.array([[7, 8, 9], [10, 11, 12]]) print('按行连接') print(np.concatenate([arr1,arr2],axis = 0)) # 按行连接 print('按列连接') print(np.concatenate([arr1,arr2],axis = 1)) # 按列连接 # 所谓堆叠,参考叠盘子。。。连接的另一种表述 print('垂直stack与水平stack') print(np.vstack((arr1, arr2))) # 垂直堆叠 print(np.hstack((arr1, arr2))) # 水平堆叠 print('拆分数组') arr = np.arange(100).reshape(20,5) print(arr) print('水平拆分') first, second, third = np.split(arr, [1, 3], axis = 0) print('first') print(first) print('second') print(second) print('third') print(third) print('垂直拆分') first, second, third = np.split(arr, [1, 3], axis = 1) print('first') print(first) print('second') print(second) print('third') print(third) # 堆叠辅助类 arr = np.arange(6) arr1 = arr.reshape((3, 2)) arr2 = np_random.randn(3, 2) print('r_用于按行堆叠') print(np.r_[arr1, arr2]) print('c_用于按列堆叠') print(np.c_[np.r_[arr1, arr2], arr]) print('切片直接转为数组') print(np.c_[1:6, -10:-5])
元素的重复操作
''' 高级应用 元素的重复操作 • _tile 数组级别的复制 • _repeat 元素级别的复制 ''' import numpy as np import numpy.random as np_random print('Repeat:按元素') arr = np.arange(3) print(arr.repeat(3))#将arr数组每个元素都复制3次。[0 0 0 1 1 1 2 2 2] print(arr.repeat([2,3,2]))# 将arr数组元素分别按照2,3,2次复制[0 0 1 1 1 2 2] print('Repeat,指定轴') arr = np.arange(10).reshape(5,2) print(arr) print('按行repeat') print(arr.repeat(2, axis = 0)) # 按行repeat print('按列repeat') print(arr.repeat(2, axis = 1)) # 按列repeat print('Tile: 参考贴瓷砖') print(np.tile(arr, 2)) print(np.tile(arr, (2, 3))) # 指定每个轴的tile次数
花式索引的等价函数
''' 花式索引的等价函数 • take • put ''' import numpy as np import numpy.random as np_random print('Fancy Indexing') arr = np.arange(10)*100 print('arr数组\n',arr) #[ 0 100 200 300 400 500 600 700 800 900] inde = [2,4,6,7] print(arr[inde]) #[200 400 600 700] print('使用take') print(arr.take(inde)) print('使用put更新内容') arr.put(inde,50) print(arr) #[ 0 100 50 300 50 500 50 50 800 900] print('take,指定轴') arr = np_random.randn(2, 4) inds = [2, 0, 2, 1] print(arr) print(arr.take(inds, axis = 1)) # 按列take