sklearn-加载数据

其他 2020-04-23 15:28:17 阅读次数: 0

加载数据

一般输入的数据是一个矩阵或CSV文件；
将数据加载到内存中；
可以是网络上的数据，比方说UCI机器学习数据仓库也可以是保存在本地的文件。

网络数据仓库

scikit-learn的实现使用了NumPy中的arrays，所以，我们要使用NumPy来载入csv文件。
以下是从UCI机器学习数据仓库中下载的数据。

import numpy as np 
import urllib 
# url with dataset 
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data" 
# download the file 下载文件
raw_data = urllib.request.urlopen(url) 
# load the CSV file as a numpy matrix 
dataset = np.loadtxt(raw_data, delimiter=",") 
# separate the data from the target attributes 
X = dataset[:,0:7] 
y = dataset[:,8]

以上从url下载数据，然后将数据文件（CSV）作为一个numpy矩阵加载到内存中，并将特征矩阵作为X，目标变量作为y。

加载本地文件

如果是本地的文件，可以使用np.loadtxt加载

import numpy as np
#加载本地工作空间的文件‘iris.txt’
np.loadtxt('iris.txt',delimiter=',', dtype=<type 'float'>, comments='#', converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)

np.loadtxt方法的参数可以参考官方文档：
https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html

保存数据

使用np.savetxt保存数据文件，同样需要指明必要的参数

np.savetxt（'iris.txt',delimiter=','）

不ZA懂

发布了1 篇原创文章 · 获赞 6 · 访问量 7371

私信关注

猜你喜欢

转载自blog.csdn.net/preapy/article/details/73549127

sklearn-加载数据

sklearn-数据集划分

python之sklearn-分类算法-3.5 模型的保存与加载

sklearn-模型评价

sklearn-交叉验证

sklearn-决策树

sklearn-模型持久化

sklearn-回归算法的学习

python之sklearn- 分类算法-2.1 数据集介绍与划分

sklearn-德国信用评分卡

sklearn-神经网络分类

sklearn-朴素贝叶斯

sklearn-归一化（标准化）

sklearn-降维-非负矩阵分解（NMF）

sklearn-降维-(主成分分析)PCA

python之sklearn-分类算法-2.6 决策树

python之sklearn-特征工程-1.4 特征选择

python之sklearn-特征工程-1.3 特征预处理

python之sklearn-特征工程-1.2 特征抽取

python之sklearn-特征工程-1.1特征工程

python之sklearn-分类算法-2.7 随机森林

python之sklearn-特征工程-1.5 特征降维

python之sklearn-分类算法-3.1 线性回归

python之sklearn- 分类算法-2.2 sklearn转换器和估计器

机械学习：从sklearn中加载数据

【sklearn第七讲】数据集加载工具

线回与非线回---sklearn-一元线性回归

python之sklearn-分类算法-2.4 网格搜索、交叉验证(模型选择与调优)

python之sklearn-分类算法-2.3 K-近邻算法

python之sklearn-特征工程-1.6 机器学习算法简介

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)