# 工具:python3 数据分析挖掘常用库导入
#固定导入
import numpy as np #科学计算基础库,多维数组对象ndarray
import pandas as pd #数据处理库,DataFrame(二维数组)
import matplotlib as mpl #画图基础库
import matplotlib.pyplot as plt #最常用的绘图库
import scipy #统计分析库
from scipy import stats #scipy库的stats模块
import sklearn #机器学习库
from sklearn import datasets #机器学习数据集库
mpl.rcParams["font.family"]="SimHei" #使用支持的黑体中文字体
mpl.rcParams["axes.unicode_minus"]=False # 用来正常显示负号 "-"
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
# % matplotlib inline #jupyter中用于直接嵌入图表,不用plt.show()
import warnings
warnings.filterwarnings("ignore") #用于排除警告
#用于显示使用库的版本
print("numpy_" + np.__version__)
print("pandas_" + pd.__version__)
print("matplotlib_"+ mpl.__version__)
print("scipy_"+ scipy.__version__)
print("sklearn_"+ sklearn.__version__)
数据集的划分
训练集:70%-80%
测试集:20%-30%
import sklearn
from sklearn import datasets #机器学习数据集库
#语法:x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(x,y,test_size=,random_state=)
#解释:训练的特征值(自变量),测试的特征值,训练的目标值,测试的目标值= 划分函数(x特征值,y目标值,test_size=测试集比例,随机种子)
1、datasets.base.Bunch(继承自字典)类
#数据 df
df = sklearn.datasets.load_iris() #iris:花的数据集,sklearn自带的数据集
#划分
x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(df.data,df.target,test_size=0.2,random_state=11)
print(x_train.shape,x_test.shape,y_train.shape,y_test.shape)
#二维表DataFrame数据类
#先构建二维表
data=pd.DataFrame(df.data,columns=list(df["feature_names"]))
data["y"] = df.target
display(data.sample(5))
x=data[df["feature_names"]] # x表示全部自变量
y=data["y"] # y表示目标变量# 二维表DataFrame数据类 的数据集划分
x_train,x_test,y_train,y_test = sklearn.model_selection.train_test_split(x,y,test_size=0.2,random_state=11)
print(x_train.shape,x_test.shape,y_train.shape,y_test.shape)