机器学习D3——数据集的拆分与获取

sklearn的数据集

  • 数据集划分
  • 数据集接口介绍

数据集划分

  • 前提:机器学习就是从数据中自动分析获得规律,并利用规律对未知数据进行预测。换句话说,我们的模型一定是要经过样本数据对其进行训练,才可以对未知数据进行预测的。
  • 问题:我们得到数据后,是否将数据全部用来训练模型呢?
    • 当然不是!因为我们如果模型(数据的规律)都是从数据中得来的,那么该模型的性能评估如何进行呢?还是基于对原先的数据进行预测吗?可想不是的,如果模型对原先的数据进行预测,由于模型(数据的规律)本来就是从该数据中获取的,所以预测的精度几乎会是百分之百。所以想要评估模型的好坏,需要使用一组新数据对模型进行评估。
    • 因此我们需要将原先的样本数据拆分成两部分:
      • 训练集:训练模型
      • 测试集:评估模型
        • 不同类型的模型的评估方式是不一样的
  • 数据集划分的API
    • from sklearn.model_selection import train_test_split
    • train_test_split(x,y,test_size,random_state)参数介绍:
      • x:特征
      • y:目标
      • test_size:测试集的比例
      • random_state:打乱的随机种子
    • 返回值:训练特征,测试特征,训练目标,测试目标
      数据集接口介绍
    • sklearn.datasets.load_*():获取小规模数据集
    • sklearn.datasets.fetch_*(data_home=None,subset):获取大规模的数据集data_home表示数据集下载目录,None为默认值表示的是家目录/scikit_learn_data(自动创建该文件夹)下。需要从网路下载.subset为需要下载的数据集,可以为train,test,all
      在这里插入图片描述
      在这里插入图片描述
    • 将鸢尾花数据集进行拆分
      在这里插入图片描述

机器学习基础

  • 机器学习算法分类
  • 机器学习开发流程
     
  • 事先需要明确的几点:
    • 机器学习最终进行预测出来的结果其实都是通过相关的算法计算出来的结果!所以说在机器学习中算法是核心,数据是计算的基础。
    • 找准定位:大部分复杂模型的算法设计都是算法工程师(博士,硕士)在做,而我们只需要:
      • 学会分析问题,使用机器学习相关算法完成对应的需求
      • 掌握算法的基本思想,学会对不同问题选择对应的算法去解决
      • 学会利用框架和库解决问题

机器学习中的数据类型

  • 机器学习中的数据类型分为:
    • 离散型数据:
      • 离散变量则是通过计数方式取得的,即是对所要统计的对象进行计数,增长量非固定的,如:一个地区的企业数目,可以是今年只有一家,而明年开了十家;一个企业的职工数今年只要10人,第二年一次招聘了20人等。
    • 连续型数据:
      • 连续变量是一直叠加上去的,增长量可以划分为固定的单位,即:1,2,3……例如一个人的身高,他首先长到151,然后才能长到152,153……
    • 注意:连续型数据是有规律的,离散型数据是没有规律的。

机器学习算法分类

  • 分类和回归问题

    • 分类算法基于的是目标数据为离散型数据
    • 回归算法基于的是目标数据为连续型数据
    • 结论:在社会中产生的数据必然是离散型或者是连续型的数据,那么企业针对数据所产生的需求也无非是分类问题或者回归问题。
  • 分类问题应用:

    • 分类在于根据其特性将数据“分门别类”,所以在许多领域都有广泛的应用
    • 在银行业务中对客户进行分类,在图像处理中检测是否有人脸,手写识别中用于识别手写的数字,文本分类中对文章进行分类。
  • 回归问题应用

    • 房价预测,根据某地历史房价数据,进行一个预测;金融信息,每日股票值。
  • 测试:下列问题的类别应该是什么

    • 预测电影的票房 (回归问题)
    • 预测明天是晴天还是阴天(分类问题)
    • 人脸识别(分类问题)

机器学习开发流程

  • 1、数据采集
    • 公司内部产生的数据
    • 和其他公司合作获取的数据
    • 购买的数据
  • 2、分析数据所对应要解决需求或者问题是什么?根据目标数据推断问题属于回归还是分类!
  • 3、数据的基本处理
    • 数据清洗
    • 合并
    • 级联等
  • 4、特征工程:对特征进行处理
    • 特征抽取
    • 特征预处理
    • 降维等
  • 5、选择合适的模型,然后进行训练
  • 6、模型的评估
  • 7、上线使用

猜你喜欢

转载自blog.csdn.net/weixin_44350337/article/details/115070538
D3