机器学习数据集的划分

# 工具:python3 数据分析挖掘常用库导入

#固定导入
import numpy as np               #科学计算基础库,多维数组对象ndarray
import pandas as pd              #数据处理库,DataFrame(二维数组)
import matplotlib as mpl         #画图基础库
import matplotlib.pyplot as plt  #最常用的绘图库
import scipy                      #统计分析库
from scipy import stats          #scipy库的stats模块
import sklearn                    #机器学习库
from sklearn import datasets      #机器学习数据集库

mpl.rcParams["font.family"]="SimHei"  #使用支持的黑体中文字体
mpl.rcParams["axes.unicode_minus"]=False # 用来正常显示负号  "-"
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
# % matplotlib inline  #jupyter中用于直接嵌入图表,不用plt.show()
import warnings
warnings.filterwarnings("ignore") #用于排除警告
 
#用于显示使用库的版本
print("numpy_" + np.__version__)
print("pandas_" + pd.__version__)
print("matplotlib_"+ mpl.__version__)
print("scipy_"+ scipy.__version__)
print("sklearn_"+ sklearn.__version__)

数据集的划分

训练集:70%-80%
测试集:20%-30%
import sklearn

from sklearn import datasets      #机器学习数据集库

#语法:x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(x,y,test_size=,random_state=)
#解释:训练的特征值(自变量),测试的特征值,训练的目标值,测试的目标值= 划分函数(x特征值,y目标值,test_size=测试集比例,随机种子)

1、datasets.base.Bunch(继承自字典)类

#数据 df

df = sklearn.datasets.load_iris()       #iris:花的数据集,sklearn自带的数据集

#划分
x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(df.data,df.target,test_size=0.2,random_state=11)
print(x_train.shape,x_test.shape,y_train.shape,y_test.shape)

#二维表DataFrame数据类              

 #先构建二维表

data=pd.DataFrame(df.data,columns=list(df["feature_names"]))
data["y"] = df.target
display(data.sample(5))
x=data[df["feature_names"]]  # x表示全部自变量
y=data["y"]                            # y表示目标变量

# 二维表DataFrame数据类 的数据集划分
x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(x,y,test_size=0.2,random_state=11)
print(x_train.shape,x_test.shape,y_train.shape,y_test.shape)

发布了129 篇原创文章 · 获赞 143 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_41685388/article/details/104442903