python-numpy模块(数组操作)

list ：特殊的数组
数组和列表的区别:

数组: 存储的时同一种数据类型;
list:容器，可以存储任意数据类型;

1.Numpy简介：

什么是numpy？
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库；
快速，方便的科学计算基础库(主要时数值的计算，多维数组的运算)。
轴的理解(axis): 0轴， 1轴， 2轴
- 一维数组: [1,2,3,45] ----0轴
- 二维数组: [[1,2,3,45], [1,2,3,45]] ----0轴, 1轴，

在这里插入图片描述

2.常用方法

2.1 numpy中如何创建数组(矩阵)

import numpy as np

# 方法1
a = np.array([1,2,3,4,5])
b = np.array([1,2,3,4,5])
c1 = np.array(range(1,6))
print(c1)                            #输出：[1 2 3 4 5]
print(a+b)                           #输出：[ 2  4  6  8 10]

# 方法2：
c2 = np.arange(1,6)
#np.arange(start, stop, step, dtype)     #参数分别为起始值，终止值，步长和数据类型
print(c2)                            #输出：[1 2 3 4 5]

#数组的类名: numpy.ndarray
print(type(c1)) # 输出：<class ‘numpy.ndarray’>

#查看数据元素的类型
print(c1.dtype) #输出：int64

#修改数组的数据类型
print(c1.astype(‘float’)) #输出：[1. 2. 3. 4. 5.]
print(c1.astype(‘bool’)) #输出：[ True True True True True]
print(c1.astype(’?’)) # ?是bool类型的代号;

#创建的时候指定数据类型
print(np.array([1,2,3,4], dtype=np.float))

#修改浮点数的小数位数
c3 = np.array([1.234556, 3.45464456, 5.645657567])
print(np.round(c3, 2)) #输出：[1.23 3.45 5.65]

2.2 读取数据

CSV(逗号分隔符文件),广义的csv文件可以不是逗号分隔；
显示: 以Excel表格的方式打开;

import numpy as np

fname = "doc/eg6-a-student-data.txt"
dtype = np.dtype([('gender', '|S1'), ('height', 'f2')])
# fname： 文件的名称， 可以是文件名， 也可以是ugz或者bz2的压缩文件;
# dtype： 数据类型， 可选， 默认是float;
# delimiter： 分隔符字符串， 默认情况是任何的空格，
# skiprows: 跳过前xx行， 一般情况跳过第一行;
# usecols: 读取指定的列， 可以是元组；
# unpack： 如果为True， 对返回的数组对象转置；
data = np.loadtxt(fname=fname, dtype=dtype, skiprows=9, usecols=(1, 3), unpack=True)
print(data)

2.3 数组的转置

import numpy as np

# 将一维数组转换为3行4列的二维数组
data = np.arange(12).reshape((3, 4))
print(data)

# 1).方法一
print(data.transpose())

# 2). 0轴 ， 1 轴
print(data.swapaxes(1, 0))

# 3).方法三
print(data.T)

2.4 索引和切片

import numpy as np

# 将一维数组转换为3行4列的二维数组
data = np.arange(12).reshape((3, 4))
print(data)

# 取第一行的数据
print(data[0])

#  取第一列的数据
print(data.T[0])
print(data[:, 1])

# 获取多行
print(data[:2])

# 获取多行列
print(data.T[:2])
print(data[:, :2])

# 获取指定行的前几列;
print(data)
print(data[[0,2], :2])
print(data[:2, [0,2]])

2.5 数值的修改

import numpy as np

# 将一维数组转换为3行4列的二维数组
data = np.arange(12).reshape((3, 4))
print(data)

# # 取第一行的数据
# data[0] = 0
# print(data)
#
# # 获取多行列
# data.T[:2] = 0
# print(data)


# # 布尔索引: 复杂的条件: data中所有大于8的数字都替换为0；
# # 返回一个三行四列的数组， 存储的是Bool值
# print(data>8)
# data[data>8] = 0
# print(data)


# 复杂的条件: data中所有大于8的数字都替换为0， 否则替换为1； a>b?a:b
# print(data)
# data[data<=8] = 1
# data[data>8] = 0
# print(data)
print(np.where(data <= 8, 1, 0))

# 裁剪: 如果data<=8, 替换称8， 如果data>=10, 替换为10;
print(data)
print(data.clip(8, 10))

# ************************************************
# 数组的拼接
t1 = np.arange(12).reshape(2, 6)
t2 = np.arange(12).reshape(2, 6)
t3 = np.arange(12).reshape(2, 6)

# 竖直拼接(vertically)
print(np.vstack((t1, t2, t3)))
# 水平拼接(horizontally)
print(np.hstack((t1, t2, t3)))

# *************************************************
# 数组的行列交换
t4 = np.arange(12).reshape(2, 6)
# 行交换（第一行和第二行进行交换）
print("原数据:\n", t4)
t4[[0, 1], :] = t4[[1, 0], :]
print("替换后的数据:\n", t4)

# 列交换（第3列和第5列进行交换）
print("原数据:\n", t4)
t4[:, [2, 4]] = t4[:, [4, 2]]
print("替换后的数据:\n", t4)

2.6 其他常用方法

import numpy as np

# 将一维数组转换为3行4列的二维数组
data = np.arange(12).reshape((3, 4))
data[0, 0] = 80
print(data)

# 1. 获取最大值和最小值的位置;
# 获取当前数组里面最大值的索引;
max_item1 = np.argmax(data)
print(max_item1)

# 获取每一列的最大值对应的索引;
print(np.argmax(data, axis=0))
# 获取每一行的最大值对应的索引;
print(np.argmax(data, axis=1))

# 2. 创建一个全为0的数组;
print(np.zeros((3, 3), dtype=np.int))

# 3. 创建一个全为1的数组;
print(np.ones((3, 4)))

# 4. 创建一个对角线全为1的正方形数组（方阵）
print(np.eye(3))

2.7 深拷贝和浅拷贝

列表的深拷贝和浅拷贝

浅拷贝: a= b[::] a = copy.copy(b)
深拷贝: a = copy.deepcopy(b)

numpy中的拷贝

data1 = data: 完全不复制，两个变量相互影响，指向同一块内存空间；
data2 = data[::], 会创建新的对象data2，
但是data的数据完全由data2保管，两个的数据变化是一致的;
data3 = data.copy(), 深拷贝，两个变量不湖影响;

import numpy as np
data = np.arange(8).reshape(2,4)
data
array([[0, 1, 2, 3],
      [4, 5, 6, 7]])
data1 = data
id(data)
140444611238448
id(data1)
140444611238448
data2 = data[::]
id(data)
140444611238448
id(data2)
140444621241360
id(data[0])
140444621241200
id(data2[0])
140444620515568
data
array([[0, 1, 2, 3],
      [4, 5, 6, 7]])
data2
array([[0, 1, 2, 3],
      [4, 5, 6, 7]])
np.where(data2<4,4,10)
array([[ 4,  4,  4,  4],
      [10, 10, 10, 10]])
data2
array([[0, 1, 2, 3],
      [4, 5, 6, 7]])
data2[0] = 0
data2
array([[0, 0, 0, 0],
      [4, 5, 6, 7]])
data
array([[0, 0, 0, 0],
      [4, 5, 6, 7]])
data3 = data.copy()
data
array([[0, 0, 0, 0],
      [4, 5, 6, 7]])
data3
array([[0, 0, 0, 0],
      [4, 5, 6, 7]])
data3[0] = 10
data3
array([[10, 10, 10, 10],
      [ 4,  5,  6,  7]])
data
array([[0, 0, 0, 0],
      [4, 5, 6, 7]])

2.8 nan和inf

nan(not a number): 表示不是一个数字, 代表的是数据缺失
inf(infinity): inf代表正无穷， -inf代表负无穷

2.9 常用统计函数

求和
均值
中值
最大值
最小值
极差
标准差：代表的是数据的波动稳定情况，数字越大，越不稳定;

import numpy as np
data = np.arange(12, dtype=np.float).reshape(3, 4)
print(data.sum())
# 每一列数据的和；
print(data.sum(axis=0))
# 每一行数据的和；
print(data.sum(axis=1))