scikit-learn机器学习常用算法原理及编程实战(二)

Python机器学习软件包

开发环境搭建

  • 安装开发环境Anaconda
  • or 安装python后执行
    pip install jupyter numpy mayplotlib scipy scikit-learn seaborn

    IPython简介

  • 与Shell紧密关联,可以在IPython环境下直接执行Shell指令。
  • 可以直接绘图操作的Web GUI环境,在机器学习领域、探索数据模式、可视化数据、绘制学习曲线时,这一功能特别有用。
  • 更强大的交互功能,包括内省、Tab键自动完成、魔术命令等。

    IPython基础

    IPython图形界面

    Numpy简介

  • Numpy是Python科学计算的基础库,主要提供了高性能的N维数组实现以及计算能力,还提供了和其他语言如C/C++集成的能力,此外还实现了一些基础的数学算法,如线性代数相关、傅里叶变换及随机数生成等。

    Numpy数组

    Numpy运算

    Pandas简介

  • Pandas是一个强大的 时间序列数据处理工具包,最初开发的目的是为了分析财经数据,现在已经广泛应用在Python数据分析领域中。

    基本数据结构

    数据排序

    数据访问

    时间序列

    数据可视化

    文件读写

    Matplotlib简介

  • Matplotlib是Python数据可视化工具包。IPython为Matplotlib专门提供了特殊的交互模式。如果要在IPython控制台使用Matplotlib,可以使用ipython --matplotlib命令来启动IPython控制台程序。IPython的Matplotlib模式有两个优点:
    • 提供了非阻塞的画图操作
    • 不需要显式地调用show()方法来显示画出来的图片
  • 如果要在IPython notebook里使用Matplotlib,则在notebook的开始位置插入%matplotlib inline 魔术命令即可。
  • Matplotlib下的pyplot子包提供了面向对象的画图程序接口。几乎所有的画图函数都与MATLAB类似,连参数都类似。在实际开发工作中,有时候甚至可以访问MATLAB的官方文档https://ww2.mathworks.cn/help/matlab/来查询画图的接口和参数,这些参数可以直接在pyplot下的画图函数里使用。
    from matplotlib import pyplot as plt

    图形样式

    图形对象

    画图操作

    scikit-learn简介

  • scikit-learn是一个开源的Python语言机器学习工具包,它涵盖了几乎所有主流机器学习算法的实现,并且提供了一致的调用接口。它基于Numpy和scipy等Python数值计算库,提供了高效的算法实现。
    • 文档齐全:官方文档齐全,更新及时。
    • 接口易用:针对所有的算法提供了一致的接口调用规则,不管是KNN、K-Mean还是PCA。
    • 算法全面:涵盖主流机器学习任务的算法,包括回归算法、分类算法、聚类分析、数据降维处理等。

      scikit-learn示例

  • 机器学习任务的一般步骤
  1. 数据采集和标记
  2. 特征选择
  3. 数据清洗
  4. 模型选择
  5. 模型训练
  6. 模型测试
  7. 模型保存与加载

scikit-learn一般性原理和通用原则

拓展资料

  1. https://scipy-lectures.org/, 一个按照CC4.0协议发布的网站,Python科学计算工具包的教程合集
  2. https://docs.scipy.org/doc/, numpy和scipy的官方文档
  3. http://pandas.pydata.org/, pandas官网
  4. https://matplotlib.org/, matplotlib的官方网站,包含大量的绘图实例
  5. https://scikit-learn.org/stable/, scikit-learn官方文档

猜你喜欢

转载自www.cnblogs.com/DyerLee/p/10670725.html