[机器学习]Scikit-Learn学习笔记03——Scikit-Learn数据模型

Scikit-Learn提供了比较全的数据集,主要分为以下几类

1. 自带的小数据集(packaged dataset)
2. 在线下载的数据集(Downloaded Dataset)
3. 生成的数据集(Generated Dataset)
4. svmlight/libsvm格式的数据集
5. 从买了data.org在线下载获取的数据集
1. 自带的小数据集(packaged dataset)

主要有以下几种:

1) 鸾尾花数据: load_iris()
2)波士顿房价数据集: load_boston()
3)乳腺癌数据集: load_breast_cancer()
4)手写字数据集: load_digits()
5)糖料病数据集: load_diabetes()
6)体能训练数据集: load_linnerud()

这些数据集有助于快速说明在 scikit 中实现的各种算法的行为。然而,它们数据规模往往太小,无法代表真实世界的机器学习任务。

例子代码
#导入模块
import numpy as np
from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.neighbors import KNeighborsClassifier
#导入数据集
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
# print(iris_X[:2, :])
# print(iris_y)
X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.2)
# print(y_train)
#训练模型
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
#预测
print(knn.predict(X_test))
print(y_test)

其它数据集同理

猜你喜欢

转载自blog.csdn.net/baihuaxiu123/article/details/80349168
今日推荐