Python3数据分析与挖掘建模实战 ☝☝☝

Python3数据分析与挖掘建模实战

Python数据分析简介

Python入门

运行：cmd下"python hello.py"

基本命令：

第三方库

安装

Windows中

pip install numpy

或者下载源代码安装

python setup.py install

Pandas默认安装不能读写Excel文件，需要安装xlrd和xlwt库才能支持excel的读写

pip install xlrd

pip install xlwt

StatModel可pip可exe安装，注意，此库依赖于Pandas和patsy

Scikit-Learn是机器学习相关的库，但是不包含人工神经网络

model.fit() #训练模型，监督模型fit(X,y),非监督模型fit(X)

# 监督模型接口

model.predict(X_new) #预测新样本

model.predict_proba(X_new) #预测概率

model.score() #得分越高，fit越好

# 非监督模型接口

model.transform() #从数据中学到新的“基空间”

model.fit_transform() #从数据中学到新的基，并按照这组基进行转换

Keras是基于Theano的强化的深度学习库，可用于搭建普通神经网络，各种深度学习模型，如自编码器，循环神经网络，递归神经网络，卷积神经网络。Theano也是一个Python库，能高效实现符号分解，速度快，稳定性好，实现了GPU加速，在密集型数据处理上是CPU的10倍，缺点是门槛太高。Keras的速度在Windows会大打折扣。

Windows下：安装MinGWindows--安装Theano---安装Keras--安装配置CUDA

Gensim用来处理语言方面的任务，如文本相似度计算、LDA、Word2Vec等，建议在Windows下运行。

Linux中

sudo apt-get install python-numpy

sudo apt-get install python-scipy

sudo apt-get install python-matplotlib

使用

Matplotlib默认字体是英文，如果要使用中文标签，

plt.rcParams['font.sans-serif'] = ['SimHei']

保存作图图像时，负号显示不正常：

plt.rcParams['axes.unicode_minus'] = False

数据探索

脏数据：缺失值、异常值、不一致的值、重复数据

异常值分析

简单统计量分析：超出合理范围的值
3sigma原则：若正态分布，异常值定义为偏差超出平均值的三倍标准差；否则，可用远离平均值的多少倍来描述。
箱型图分析：异常值定义为小于Q_L-1.5IQR或者大于Q_U +1.5IQR。Q_L是下四分位数，全部数据有四分之一比他小。Q_U是上四分位数。IQR称为四分位数间距，IQR=Q_U-Q_L