ML--机器学习python库sklearn的学习

版权声明:转载请注明出处 https://blog.csdn.net/weixin_42683993/article/details/89245244
  • Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。

  • Sklearn安装要求Python(>=2.7 or >=3.3)、NumPy (>= 1.8.2)、SciPy (>= 0.13.3)。如果已经安装NumPy和SciPy,安装scikit-learn就可以使用。

  • 学习资料:https://scikit-learn.org/stable/index.html (官方的网站,包括各种机器学习原理和模块函数API)
    http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030181 (上面官方的网站, ApacheCN 开源组织翻译)
    https://www.cnblogs.com/lianyingteng/p/7811126.html

  • 入门举例:Sklearn中包含众多机器学习方法,但各种学习方法大致相同,我们在这里介绍Sklearn通用学习模式。首先引入需要训练的数据,Sklearn自带部分数据集,也可以通过相应方法进行构造;然后选择相应机器学习方法进行训练,训练过程中可以通过一些技巧调整参数,使得学习准确率更高;模型训练完成之后便可预测新数据;我们还可以通过MatPlotLib等方法来直观的展示数据;另外还可以将我们已训练好的Model进行保存,方便移动到其他平台,不必重新训练。

      from sklearn import datasets #引入数据集,sklearn包含众多数据集
      from sklearn.model_selection import train_test_split #将数据分为测试集和训练集
      from sklearn.neighbors import KNeighborsClassifier  #利用邻近点方式训练数据
      iris=datasets.load_iris()  #引入iris鸢尾花数据,iris数据包含4个特征变量
      iris_X=iris.data #特征变量
      iris_y=iris.targe t#目标值
      X_train,X_test,y_train,y_test=train_test_split(iris_X,iris_y,test_size=0.3) #利用train_test_split进行将训练集和测试集进行分开,test_size占30%
      print(y_train )#我们看到训练数据的特征值分为3类
      ###训练数据###
      knn=KNeighborsClassifier()#引入训练方法
      knn.fit(X_train,y_train)#进行填充测试数据进行训练
      ###预测数据###
      print(knn.predict(X_test))#预测特征值
      print(y_test)#真实特征值
    

猜你喜欢

转载自blog.csdn.net/weixin_42683993/article/details/89245244