机器学习(二)之python调用scikit learn

        上一篇博客写了机器学习开发环境的部署,这次针对机器学习数据预处理进行记录,利用的是scikit-learn中自带的iris数据——鸢尾属植物数据(分类)。包括如何加载打印和赋值

        首先介绍一下scikit-learn是什么:

  • scikit-learn 是基于 Python 语言的机器学习工具。

  • 简单高效的数据挖掘和数据分析工具

  • 可供大家在各种环境中重复使用

  • 建立在 NumPy ,SciPy 和 matplotlib 上 

        其次iris是一类多重变量分析的数据集。

  • 包含三类供150条记录,每条记录有四个属性。

  • 分别是花萼长度,花萼宽度,花瓣长度,花瓣宽度。

  • 通过这4个属性可以预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。         

        接下来就是在jupyter中进行iris数据的预处理。

首先打开Anaconda,点击jupyter,new一个python3.

使用load_iris 方法加载iris数据集:

  • from sklearn import datasets

  • iris=datasets.load_iris()

print输出iris.data可以看到多个记录值,每个记录包含前面提到的四个属性。

iris中的一些方法

  • iris.data//花的四个属性

  • iris.feature_names//输出每列名称

  • iris.target//输出所属类别以数字0/1/2表示

  • iris.target_name//输出类别名称

  • type()确认数据类型

  • iris.data.shap//确认维度

执行如下

可以看到,iris.data和iris.target属性数据和结果数据均是numpy类型

赋值:

X=iris.data

Y=iris.data

发布了7 篇原创文章 · 获赞 6 · 访问量 6208

猜你喜欢

转载自blog.csdn.net/yuxing_miao/article/details/104252659
今日推荐