文章目录
numpy & Pandas
ndarray
ndarray:存放相同类型元素的多维数组,每个元素在内存中有相同存储大小的区域。
array创建方法
np.array[1,2,3,4,5,6]
np.arange(6) np.arange(2,8, step=2,dtype = np.int64) #可限定范围和步长,指定dtype
np.ones((2,2)) #全为1的矩阵
np.zeros((2,2)) #全为0的矩阵
np.eye(3) #n维单位矩阵
np.random.rand(size) #[0,1)的随机值
np.random.randn(size) #返回值具有标准正态分布
np.random.randint(low,high,size) #[low,high)的随机整数组成的矩阵
x.reshape(3,2) #变更shape
np.save('filename',x)
np.load('filename.npy')
ndarray访问和修改
ndarray删除和插入
ndarray切片
ndarray过滤
ndarray集合运算
ndarray运算与广播
Pandas
Series
Series是一个类似于array的一维对象,与array不同的是,Series的每一个元素都可以给它分配索引标签
创建Series
Serie访问、修改和删除
loc:通过index索引访问
iloc:通过行号索引访问
loc是指location的意思,iloc中的i是指integer
DataFrame
创建和保存dataframe
读取csv为dataframe并查看
.head()
.describe()
.info()
访问、修改和删除dataframe
缺失值NaN
NaN与任何值做比较计算都是false,甚至和NaN==NaN也是false
dataframe分组
apply进行批量操作
分段制作交叉表
pd.concat()
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
keys=None, levels=None, names=None, verify_integrity=False)
输入的objs需要为dataframe组成的列表
pd.get_dummies()
pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False)
需要制定生成列名的前缀,prefix=