sklearn.datasets
(1)datasets.load_*()
获取小规模数据集,数据包含在datasets里
1)鸢尾花数据集
from sklearn.datasets import load_iris
def iris_set():
"""
鸢尾花卉数据集
花萼 花瓣:长,宽
:return: None
"""
li = load_iris()
print("获取特征值")
print(li.data)
print("目标值")
print(li.target)
print(li.DESCR)
#特征值,目标值 根据一系列的特征来预测目标,例如:户型,学区,收入来预测房价。
#注意返回值, 训练集 train x_train, y_train 测试集 test x_test, y_test
x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
print("训练集特征值和目标值:", x_train, "\n", y_train, "\n")
print("测试集特征值和目标值:", x_test, y_test)
return None
2)20个不同主题的新闻数据集
from sklearn.datasets import fetch_20newsgroups
def boston_set():
"""
房屋特征-房价
:return:None
"""
lb = load_boston()
print("获取特征值")
print(lb.data)
print("目标值")
print(lb.target)
print(lb.DESCR)
return None
3)波士顿房价数据集
from sklearn.datasets import load_boston
def boston_set():
"""
房屋特征-房价
:return:None
"""
lb = load_boston()
print("获取特征值")
print(lb.data)
print("目标值")
print(lb.target)
print(lb.DESCR)
return None
(2)datasets.fetch_*()
获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/,要修改默认目录,可以修改环境变量SCIKIT_LEARN_DATA。