1.安装SciPy
pip install scipy
2.SciPy包
翻译仅供参考
SciPy | Functionalities(机能) |
---|---|
cluster (群(簇)) | 分层次的群(簇) clustering.hierarchy 矢量量化 cluster.vq |
constants (常量) | 物理的和数学的常量,转换方法 |
fftpack | 描述傅里叶变换的算法 |
integrate | 集成的常规 |
interpolate | 插入(线性的,立体的等等) |
io | 数据的输入和输出 |
linalg | 使用最佳化的BLAS和LAPACK库的常规的线性算法 |
ndimage | n维度的图片包 |
odr | 正交回归距离 |
optimize | 最佳化 |
signal | 信号处理 |
sparse | 稀疏矩阵 |
spatial | 空间数据结构和算法 |
special | 特殊的数学函数(如贝叶斯) |
stats | 统计学工具包 |
3.输入数据
模拟输入某网站每小时的点击量,数据存放在data.txt文件中
import sripy as sp
data = sp.genfromtxt('data.txt', delimiter=',')
print(data[:10])
print(data.shape)
3.预处理和清除数据
在SciPy中分离由两个向量组成的维度是很方便的。x向量包含小时以及其他的内容。y向量包含每小时的点击量。
x = data[:,0]
y = data[:,1]
检查数据中是否包含无效的数据
sp.sum(sp.isnan(y))
排除数据中的无效数据
x = x[~sp.isnan(y)]
y = y[~sp.isnan(y)]