[机器学习]Scikit-Learn学习笔记01——Scikit-Learn基础概念

概念

1.sklearn是一个Python第三方提供的非常强力的机器学习库
2.scikit-learn是一个基于NumPy,SciPy,Matplotlib的开源学习工具包
3. 在数据量不是过大的情况下,可以解决大部分问题.

安装

安装 Scikit-learn (sklearn) 最简单的方法就是使用 pip或者用PyCharm或者 Anaconda 安装它.在安装前,要确保电脑已经安装了Numpy和Scipy

PIP使用方法
# python 2+ 版本复制:
pip install -U scikit-learn
# python 3+ 版本复制:
pip3 install -U scikit-learn

使用方法

不要直接去用,先了解一下都有什么模型方法,然后选择适当的方法,来达到你的目标。
Sklearn 官网提供了一个流程图, 蓝色圆圈内是判断条件,绿色方框内是可以选择的算法:
这里写图片描述

图中,可以看到算法分为两类四大块

监督学习

每个数据对应一个 label

1.分类算法  
2.回归算法 
非监督学习

只有数据,而没有与数据相对应得label

3.聚类算法
降维算法

当数据集有很多很多属性的时候,可以通过 降维 算法把属性归纳起来,例如 20 个属性只变成 2 个,注意,这不是挑出 2 个,而是压缩成为 2 个,它们集合了 20 个属性的所有特征,相当于把重要的信息提取的更好,不重要的信息就不要了。

在了解算法之后,然后看问题属于哪一类问题,是分类还是回归,还是聚类,就选择相应的算法。 当然还要考虑数据的大小,例如 100K 是一个阈值。如图中所显示的一样.

猜你喜欢

转载自blog.csdn.net/BaiHuaXiu123/article/details/80301053