机器学习概述二

一、基本概念

1.分类

    通过分类模型,将样本数据集中的样本映射到某个给定的类别中

2.聚类

    通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大

3.回归

    反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现样本属性值之间的依赖关系

4.关联规则

    获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率

二、机器学习开发流程

    1.数据收集

    2.数据预处理

      主要是:数据过滤,处理缺失值,处理异常值,合并多个数据源,数据汇总。

      对缺失值的处理一般有上采样下采样

      在数据不均衡的情况,通过上采样人为的制造比例偏小的数据以使数据分布比较均衡;下采样就是抽取比例较大的数据以使数          据分布比较均衡;所谓均衡大概是维持在3:1~5:1之间。

    3.特征提取

      特征提取分为:特征选择特征降维

      特征选择是从总特征中选出若干比较重要的特征

      特征降维是在原始特征的基础上,通过一定的规则在保持原有特征维度不变情况下生成新的数据集,再从此基础上选取若干比          较重要的特征

    4.模型构建

    5.模型测试与评估

    6.投入使用(模型部署与整合)

    7.迭代与优化

猜你喜欢

转载自blog.csdn.net/yangjiajia123456/article/details/84933320