第一章:准备工作
参考教材为:《利用python进行数据分析》
1.1什么类型的数据
- 表格型数据
- 多维数组
- 由主键外键相关联的多张表数据(数据库)
- 均匀或非均匀的时间序列(????暂时不懂)
1.2为什么使用python进行数据分析
- 各种库,例如pandas和skit-learn
- 胶水语言
- 解决双语言难题,只用python就可以了!
- 缺点:python太慢了。。
1.3重要的python库
1.3.1 numpy
- 快速高效的多维数组对象ndarray
- 数组计算,数组间数学计算
- 读写基于数组的数据集工具
- 线性代数操作,傅里叶变换,随机数生成
- c语言api
- 作为数据传递的容器高效
1.3.2pandas(python data analysis)
- 高级数据结构(dataframe,series)
- 函数(数据的重组,切块,切片,聚合,子集。。有利于数据操作,预处理,数据清洗)
1.3.3matplotlib
- 绘图
1.3.4ipython与jupyter
- 交互式python解释器
1.3.5scipy(针对科学领域对不同标准问题域的包集合)
- scipy.integrate(数值积分和微分方程)
- scipy.linalg(线性代数和基于numy.linalg??的矩阵分解)
- scipy.optimize(函数优化器,求根算法)
- scipy.sparse(稀疏矩阵,稀疏线性系统??求解器)
- scipy.special???
- scipy.stats(标准的连续和离散概率分布,各类统计测试,各类描述性统计)
1.3.6scikit-learn(更专注于预测)
- 分类(SVM,最近邻,随机森林,逻辑回归)
- 回归(lasso,岭回归)
- 聚类(k-means,谱聚类)
- 降维(pca,特征选择,矩阵分解)
- 模型选择(网格搜索,交叉验证,指标矩阵)
- 预处理(特征提取,正态化)
1.3.7statsmodels(更专注于推理)
- 回归模型
- 方差统计
- 时间序列分析
- 非参数方法
- 统计模型结果可视化
工作任务大体流程
- 与外部世界交互(读写各种格式的文件以及数据存储)
- 准备(对分析数据进行清洗,处理,联合,正态化,重组,切片,切块和转换)
- 转换(将数学或统计操作应用到数据集的分组上以产生新的数据集)
- 建模和计算(将数据接入到统计模型,机器学习算法和其他计算工具上)
- 演示(创建动态或静态的图像可视化或文字概述)