AI(一)sklearn数据集

官方文档 sklearn.datasets: Datasets

sklearn中包含了很多可以用于机器学习算法的示例数据集

# sklearn数据集的使用
from sklearn.datasets import load_iris

# 加载鸢尾花数据集
iris = load_iris()

# 鸢尾花数据集包含150组数据
# 每组数据由4个变量和1个目标值构成
data = iris.data
target = iris.target

# 数据类型都为numpy.ndarray
# data是样本数×数据维数的数组
# target是data对应的目标值数组
data.shape, target.shape
# ((150, 4), (150,))

sklearn中也包含了生成指定样式随机数据的函数

# sklearn生成器的使用
from sklearn.datasets import make_circles

# make_circle函数可以生成形似两个同心圆的数据
# x是二维数组,第一维是样本索引,第二维是横纵坐标
# y是一维数组,标记x是在内圈还是在外圈
# n_samples表示样本数
# shuffle表示是否打乱数据
# noise表示高斯噪声的标准偏差
# factor表示内外圆半径比例
x, y = make_circles(n_samples=2000, shuffle=True, noise=0.1, factor=0.5)

# 将数据可视化
import matplotlib.pyplot as plt
plt.plot(x[:, 0], x[:, 1], '.')

sklearn还可以进行数据分割,将原始数据分割为训练集和测试集

# 返回参数依次为训练数据集、测试数据集、训练目标集、测试目标集
# x, y表示原始数据集
# test_size表示训练集的比例
# shuffle表示是否打乱数据
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, shuffle=True)
X_train.shape, X_test.shape, y_train.shape, y_test.shape
# ((1400, 2), (600, 2), (1400,), (600,))

猜你喜欢

转载自blog.csdn.net/lolimostlovely/article/details/83004400