利用python进行数据分析-第一章

第一章:准备工作

参考教材为:《利用python进行数据分析》

1.1什么类型的数据

  • 表格型数据
  • 多维数组
  • 由主键外键相关联的多张表数据(数据库)
  • 均匀或非均匀的时间序列(????暂时不懂)

1.2为什么使用python进行数据分析

  • 各种库,例如pandas和skit-learn
  • 胶水语言
  • 解决双语言难题,只用python就可以了!
  • 缺点:python太慢了。。

1.3重要的python库

1.3.1 numpy

  • 快速高效的多维数组对象ndarray
  • 数组计算,数组间数学计算
  • 读写基于数组的数据集工具
  • 线性代数操作,傅里叶变换,随机数生成
  • c语言api
  • 作为数据传递的容器高效

1.3.2pandas(python data analysis)

  • 高级数据结构(dataframe,series)
  • 函数(数据的重组,切块,切片,聚合,子集。。有利于数据操作,预处理,数据清洗)

1.3.3matplotlib

  • 绘图

1.3.4ipython与jupyter

  • 交互式python解释器

1.3.5scipy(针对科学领域对不同标准问题域的包集合)

  • scipy.integrate(数值积分和微分方程)
  • scipy.linalg(线性代数和基于numy.linalg??的矩阵分解)
  • scipy.optimize(函数优化器,求根算法)
  • scipy.sparse(稀疏矩阵,稀疏线性系统??求解器)
  • scipy.special???
  • scipy.stats(标准的连续和离散概率分布,各类统计测试,各类描述性统计)

1.3.6scikit-learn(更专注于预测)

  • 分类(SVM,最近邻,随机森林,逻辑回归)
  • 回归(lasso,岭回归)
  • 聚类(k-means,谱聚类)
  • 降维(pca,特征选择,矩阵分解)
  • 模型选择(网格搜索,交叉验证,指标矩阵)
  • 预处理(特征提取,正态化)

1.3.7statsmodels(更专注于推理)

  • 回归模型
  • 方差统计
  • 时间序列分析
  • 非参数方法
  • 统计模型结果可视化

工作任务大体流程

  1. 与外部世界交互(读写各种格式的文件以及数据存储)
  2. 准备(对分析数据进行清洗,处理,联合,正态化,重组,切片,切块和转换)
  3. 转换(将数学或统计操作应用到数据集的分组上以产生新的数据集)
  4. 建模和计算(将数据接入到统计模型,机器学习算法和其他计算工具上)
  5. 演示(创建动态或静态的图像可视化或文字概述)
发布了26 篇原创文章 · 获赞 1 · 访问量 800

猜你喜欢

转载自blog.csdn.net/qq_43654994/article/details/105529693