机器学习 scikit-learn 数据集

其他 2019-10-24 11:47:15 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/shuzhuchengfu/article/details/102548433

机器学习 scikit-learn 数据集

数据集划分

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

sklearn 数据集接口介绍

sklearn.model_selection.train_test_split
load*和fetch* 返回的数据类型datasets.base.Bunch(字典格式）

data： 特征数据数组，是[n_samples*n_features]的二维numpy.ndarray数组
target： 标签数组，是n_samples的一维numpy.ndarray数组
DESCR： 数据描述
feature_names: 特征名，新闻数据，手写数字、回归数据集没有
target_names: 标签名

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

def load_iris_demo():
    li = load_iris()
    print("获取特征值 %s" % ("=" * 50))
    print(li.data)
    print("获取目标值 %s" % ("=" * 50))
    print(li.target)
    print("获取特征名 %s" % ("=" * 50))
    print(li.feature_names)
    print("获取标签名 %s" % ("=" * 50))
    print(li.target_names)
    print("获取描述 %s" % ("=" * 50))
    print(li.DESCR)
    # 数据集进行分割
    # 训练集特征值，测试集特征值，训练集目标值，测试集目标值
    x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
    print("训练集的特征值： %s" % ("=" * 50))
    print(x_train)
    print("训练集的目标值： %s" % ("=" * 50))
    print(y_train)
    print("测试集的特征值： %s" % ("=" * 50))
    print(x_test)
    print("测试集的特征值： %s" % ("=" * 50))
    print(y_train)

sklearn 分类数据集

from sklearn.datasets import fetch_20newsgroups, clear_data_home
# 用于分类的大数据集
# subset all 所有 test 测试 train 训练
news = fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)
# 清除目录下的数据集
clear_data_home()

sklearn 回归数据集

# 加载并返回波士顿房价数据集
sklearn.datasets.load_boston()
# 加载并返回糖尿病数据集
sklearn.datasets.load_diabetes()

猜你喜欢

转载自blog.csdn.net/shuzhuchengfu/article/details/102548433

机器学习 scikit-learn 数据集

机器学习 06 scikit-learn 数据集介绍

[机器学习]Scikit-Learn学习笔记03——Scikit-Learn数据模型

【数据分析4】scikit-learn机器学习

机器学习scikit-learn

机器学习及scikit-learn

机器学习-scikit-learn

Scikit-learn学习

［scikit-learn学习笔记］数据处理

Scikit-Learn 与 TensorFlow 机器学习实用指南学习笔记 3 —— 数据获取与清洗

莫烦scikit-learn学习自修第四天【内置训练数据集】

【SciKit-Learn学习笔记】5：核SVM分类和预测乳腺癌数据集

【SciKit-Learn学习笔记】2：kNN分类/回归,在糖尿病数据集上的表现

【Scikit-Learn 中文文档】机器学习: scikit-learn 中的设置以及预估对象 - 关于科学数据处理的统计学习教程 - scikit-learn 教程 | ApacheCN

机器学习的基本概念、算法分类、开发流程、数据集划分、工具介绍（python的scikit-learn）

python数据分析实战-第8章-用scikit-learn库实现机器学习

如何使用 scikit-learn 为机器学习准备文本数据

scikit-learn内置数据集

SciKit-Learn 加载数据集

python scikit-learn学习

Scikit-learn学习笔记

scikit-learn学习资源

scikit-learn学习总结

scikit-learn学习（一）

机器学习----scikit-learn入门

Python机器学习库scikit-learn

Scikit-Learn 机器学习笔记 -- SVM

机器学习_scikit-learn中的SVM

Scikit-Learn 机器学习笔记 -- MNIST

机器学习--scikit-learn库（2）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)