一.数据分析——表示单元2：NumPy数据存储

1. 数据的CSV文件存取

CSV文件

CSV（Comma-Separated Value，逗号分隔值）

CSV是一种常见的文件格式，用来存储批量数据

np.savetxt(frame, array, fmt='%.18e', delimiter=None)

frame：文件、字符串或产生器，可以是.gz或.bz2的压缩文件
array：存入文件的数组
fmt：写入文件的格式，例如：%d %.2f %.18e
delimiter：分割字符串，默认是任何空格

np.loadtxt(frame, dtype=np.float, delimiter=None, unpack=False)

frame：文件、字符串或产生器，可以使.gz或.bz2的压缩文件
dtype：数据类型，可选
delimiter：分割字符串，默认是任何空格
unpack：如果True，读入属性将分别写入不同变量

CSV文件的局限性

CSV只能有效存储一维和二维数组

np.savetxt() np.loadtxt()只能有效存取一维和二维数组

2. 多维数据的存取

任意维度数据如何存取呢？

a.tofile(frame, sep=' ', format='%s')

frame：文件、字符串
sep：数据分割字符串，如果是空串，写入文件为二进制
format：写入文件的格式

np.fromfile(frame, dtype=float, count=-1, sep=' ')

frame：文件、字符串
dtype：读取的数据类型
count：读入元素个数，-1表示读入整个文件
sep：数据分割字符串，如果是空串，写入文件为二进制

此方法将数组信息写到文件之后，维度信息丢失，必须在读入的时候知道原来的维度信息才能够有效地还原数组信息。

以上是文本文件，以下是二进制文件：

需要注意：

该方法需要读取时知道存入文件时数组的维度和元素类型

a.tofile()和np.fromfile()需要配合使用

可以通过元数据文件来存储额外信息

NumPy的便捷文件存取

np.save(fname,array) 或 np.savez(fname,array)

fname：文件名，以.npy为扩展名，压缩扩展为.npz
array：数组变量

np.load(fname)

fname：文件名，以.npy为扩展名，压缩扩展名为.npz

3. NumPy的随机函数

NumPy的随机函数子库

NumPy的random子库：np.random.*

**np.random的随机数函数(1)**
函数	说明
rand(d0,d1,...,dn)	根据d0-dn创建随机数数组，浮点数，[0,1)，均匀分布
randn(d0,d1,...,dn)	根据d0-dn创建随机数数组，标准正态分布
randint(low[,high,shape])	根据shape创建随机整数或整数数组，范围是[low,high)
seed(s)	随机数种子，s是给定的种子值

通过设定和重复使用同一个随机数种子，我们可以在测试的时候得到相同的产生的随机数数组。

**np.random的随机数函数(2)**
函数	说明
shuffle(a)	根据数组a的第0轴(最外层)进行随机排列，改变数组a
permutation(a)	根据数组a的第0轴产生一个新的乱序数组，不改变数组a
choice(a[,size,replace,p])	从一维数组a中以概率p抽取元素，形成size形状新数组，replace表示是否可以重用元素，默认为True。p默认为相同概率

**np.random的随机数函数(3)**
函数	说明
uniform(low,high,size)	产生具有均匀分布的数组，low起始值，high结束值，size形状
normal(loc,scale,size)	产生具有正态分布的数组，loc均值，scale标准差，size形状
poisson(lam,size)	产生具有泊松分布的数组，lam随机事件发生率，size形状

4. NumPy的统计函数

NumPy直接提供的统计类函数：np.*

**np.random的统计函数(1)**
函数	说明
sum(a, axis=None)	根据给定轴axis计算数组a相关元素之和，axis整数或元组
mean(a, axis=None)	根据给定轴axis计算数组a相关元素的期望，axis整数或元组
average(a, axis=None, weights=None)	根据给定轴axis计算数组a相关元素的加权平均值
std(a, axis=None)	根据给定轴axis计算数组a相关元素的标准差
var(a, axis=None)	根据给定轴axis计算数组a相关元素的方差

**np.random的统计函数(2)**
函数	说明
min(a) max(a)	计算数组a中元素的最小值、最大值
argmin(a) argmax(a)	计算数组a中元素最小值、最大值的降一维后的下标
unravel_index(index, shape)	根据shape将一维下标index转换成多维下标
ptp(a)	计算数组a中元素最大值与最小值的差
median(a)	计算数组a中元素的中位数（中值）

5. NumPy的梯度函数

**np.random的梯度函数**
函数	说明
np.gradient(f)	计算数组f中元素的梯度，当f为多维时，返回每个维度梯度

梯度：连续值之间的变化率，即斜率。

XY坐标轴连续三个X坐标对应的Y轴值：a, b, c, 其中，b的梯度是：(c-a)/2

以上内容参考来自：中国大学慕课嵩天老师