# 工具：python3 数据分析挖掘常用库导入

#固定导入
import numpy as np               #科学计算基础库，多维数组对象ndarray
import pandas as pd              #数据处理库，DataFrame（二维数组）
import matplotlib as mpl         #画图基础库
import matplotlib.pyplot as plt  #最常用的绘图库
import scipy                      #统计分析库
from scipy import stats          #scipy库的stats模块
import sklearn                    #机器学习库
from sklearn import datasets      #机器学习数据集库

mpl.rcParams["font.family"]="SimHei"  #使用支持的黑体中文字体
mpl.rcParams["axes.unicode_minus"]=False # 用来正常显示负号  "-"
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
# % matplotlib inline  #jupyter中用于直接嵌入图表，不用plt.show()
import warnings
warnings.filterwarnings("ignore") #用于排除警告
 
#用于显示使用库的版本
print("numpy_" + np.__version__)
print("pandas_" + pd.__version__)
print("matplotlib_"+ mpl.__version__)
print("scipy_"+ scipy.__version__)
print("sklearn_"+ sklearn.__version__)

数据集的划分

训练集：70%-80%
测试集：20%-30%
import sklearn

from sklearn import datasets #机器学习数据集库

#语法：x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(x,y,test_size=,random_state=)
#解释：训练的特征值(自变量)，测试的特征值，训练的目标值，测试的目标值= 划分函数(x特征值，y目标值，test_size=测试集比例，随机种子)

1、datasets.base.Bunch(继承自字典)类

#数据 df

df = sklearn.datasets.load_iris() #iris:花的数据集，sklearn自带的数据集

#划分
x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(df.data,df.target,test_size=0.2,random_state=11)
print(x_train.shape,x_test.shape,y_train.shape,y_test.shape)

#二维表DataFrame数据类

#先构建二维表

data=pd.DataFrame(df.data,columns=list(df["feature_names"]))
data["y"] = df.target
display(data.sample(5))
x=data[df["feature_names"]] # x表示全部自变量
y=data["y"] # y表示目标变量

# 二维表DataFrame数据类的数据集划分
x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(x,y,test_size=0.2,random_state=11)
print(x_train.shape,x_test.shape,y_train.shape,y_test.shape)

Jalen data analysis

发布了129 篇原创文章 · 获赞 143 · 访问量 2万+

私信关注

机器学习数据集的划分

数据集的划分

1、datasets.base.Bunch(继承自字典)类

#二维表DataFrame数据类

猜你喜欢