机器学习 scikit-learn 数据集

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/shuzhuchengfu/article/details/102548433

机器学习 scikit-learn 数据集

数据集划分

  • 训练数据:用于训练,构建模型
  • 测试数据:在模型检验时使用,用于评估模型是否有效

sklearn 数据集接口介绍

sklearn.model_selection.train_test_split
load*和fetch* 返回的数据类型datasets.base.Bunch(字典格式)

  • data: 特征数据数组,是[n_samples*n_features]的二维numpy.ndarray数组
  • target: 标签数组,是n_samples的一维numpy.ndarray数组
  • DESCR: 数据描述
  • feature_names: 特征名,新闻数据,手写数字、回归数据集没有
  • target_names: 标签名
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

def load_iris_demo():
    li = load_iris()
    print("获取特征值 %s" % ("=" * 50))
    print(li.data)
    print("获取目标值 %s" % ("=" * 50))
    print(li.target)
    print("获取特征名 %s" % ("=" * 50))
    print(li.feature_names)
    print("获取标签名 %s" % ("=" * 50))
    print(li.target_names)
    print("获取描述 %s" % ("=" * 50))
    print(li.DESCR)
    # 数据集进行分割
    # 训练集特征值,测试集特征值,训练集目标值,测试集目标值
    x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
    print("训练集的特征值: %s" % ("=" * 50))
    print(x_train)
    print("训练集的目标值: %s" % ("=" * 50))
    print(y_train)
    print("测试集的特征值: %s" % ("=" * 50))
    print(x_test)
    print("测试集的特征值: %s" % ("=" * 50))
    print(y_train)

sklearn 分类数据集

from sklearn.datasets import fetch_20newsgroups, clear_data_home
# 用于分类的大数据集
# subset all 所有 test 测试 train 训练
news = fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)
# 清除目录下的数据集
clear_data_home()

sklearn 回归数据集

# 加载并返回波士顿房价数据集
sklearn.datasets.load_boston()
# 加载并返回糖尿病数据集
sklearn.datasets.load_diabetes()

猜你喜欢

转载自blog.csdn.net/shuzhuchengfu/article/details/102548433