机器学习 sklearn 数据集

sklearn.datasets

(1)datasets.load_*()

获取小规模数据集,数据包含在datasets里

1)鸢尾花数据集

from sklearn.datasets import load_iris

def iris_set():
    """
    鸢尾花卉数据集
    花萼 花瓣:长,宽
    :return: None
    """
    li = load_iris()

    print("获取特征值")
    print(li.data)
    print("目标值")
    print(li.target)
    print(li.DESCR)

    #特征值,目标值  根据一系列的特征来预测目标,例如:户型,学区,收入来预测房价。
    #注意返回值, 训练集 train  x_train, y_train        测试集  test   x_test, y_test
    x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)

    print("训练集特征值和目标值:", x_train, "\n", y_train, "\n")
    print("测试集特征值和目标值:", x_test, y_test)

    return None

2)20个不同主题的新闻数据集


from sklearn.datasets import fetch_20newsgroups

def boston_set():

    """
    房屋特征-房价
    :return:None
    """
    lb = load_boston()

    print("获取特征值")
    print(lb.data)
    print("目标值")
    print(lb.target)
    print(lb.DESCR)

    return  None

3)波士顿房价数据集

from sklearn.datasets import load_boston

def boston_set():

    """
    房屋特征-房价
    :return:None
    """
    lb = load_boston()

    print("获取特征值")
    print(lb.data)
    print("目标值")
    print(lb.target)
    print(lb.DESCR)

    return  None

(2)datasets.fetch_*()

获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/,要修改默认目录,可以修改环境变量SCIKIT_LEARN_DATA。

猜你喜欢

转载自blog.csdn.net/Rand_C/article/details/85757581