numpy&pandas的基本用法

Numpy

Numpy:科学计算库，底层c++实现，处理数学很灵活，处理矩阵（多维数组）

np.array ( [1,2,3,4,5,6] )   # 初始化矩阵（高维数组）
np.ndim   # 查看高维数组的维度
np.shape  # 查看髙维数组的形状
np.reshape(2,3)  # 改变数组形状，括号内的两个数相乘必须和原数组的长度一致,如果是一维数组，可以通过这种方法改成二维数组（2行3列）
np.arange(2,10,2)   # 生成区间数组,最后一个数是步长（不需要步长可以去掉）

# 将np.arange(20) 这个区间数组改成三维数组如下:
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
#改变三维数组如下:
np.reshape(2,2,5)
[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]]

np.sum(data)   # 求和
np.average(data)   
np.max(data)       # 求最大
np.mean(data)      # 平均值
np.std(data)         # 标准差（）
np.var(data)         # 方差（标准差的平方）
np.tolist()          tolist将ndarray 转成 list
np.array([ ])   	将 list 转成 ndarray

pandas

Pandas: 对数据格式化，提供了一种表格数据结构擅长处理表格数据
数据类型：series,一维数据 dataframe,二维数据

pd.Series([1,2,3,4,5])   	 # 初始化Series一维数组
pd.head(2）			# head 默认取前5个，可以自定义
pd.tail(2)			# tail 默认取后5个，可以自定义


# 初始化DataFrame 二维数组
# columns 指定列名  index:指定索引
df = pd.DataFrame([[1,2,3,4,5],[6,7,8,9,10]],columns=['a','b','c','d','e'],index=['aa','bb'])  

df.loc['aa']   		# loc 按行标签取一行的数据
df.iloc[2]  		 # iloc 按行索引取一行取值

# 用numpy 求panads 的和,默认是每列的和  axis=1:按行求和,axis=0:按列求和  
np.sum(df,axis=0)

numpy&pandas的基本用法

猜你喜欢