版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Song_Lynn/article/details/80015124
机器学习之概述
1.概述
机器学习是什么
- 人工智能的一个重要学科的分支,一个多领域交叉学科
- 一类数据驱动的方法,在数据上通过算法,总结模式、规律,从而应用在新的数据上
- 研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构,使之不断改善自身
- 广泛应用:互联网、生物、医疗、金融、能源、交通等等
2.基本概念
2.1 不同类型的问题
分类问题(监督学习)
根据数据样本上抽取出的特征,判定其属于有限个类别中的哪一个(类似选择题)
离散个结果中做选择
例子:
- 垃圾邮件识别(1、垃圾邮件;2、正常邮件)
- 文本情感褒贬分析(1、褒;2、贬)
- 图像内容识别(1、喵星人;2、汪星人;3、人类;4、草泥马;5、都不是)
回归问题(监督学习)
根据数据样本上抽取出的特征,预测连续值结果(类似计算题)
输出连续值结果
例子:
- 《芳华》票房值
- 魔都房价具体值
- 刘德华和吴彦祖的具体颜值得分
聚类问题(无监督学习)
根据数据样本上抽取出的特征,挖掘数据的关联模式
例子:
- 相似用户挖掘 / 社区发现
- 新闻聚类
强化问题
研究如何基于环境而行都,以取得最大化的预期利益
从环境到行为映射的学习
例子:
- 游戏(“吃鸡”)最高得分
- 机器人完成任务
2.2 基本术语与概念
监督学习(supervised learning)
无监督学习(unsupervised learning)
区别:数据是否有标签
- 数据
- 数据集(训练集、测试集)
- 示例(instance)、样例(example)、样本(sample)
- 属性(attribute)、特征(feature);属性值
- 属性空间、样本空间、 输入空间
- 特征向量(feature vector)
- 标记空间、输出空间
- 学习算法 learning algorithm
- 模型,假设(hypothesis)
- 未见样本(unseen instance)
- 真相(ground-truth)
- 学习器(learner)
- 泛化(generalization)
2.3 工业界应用方向
- 模式识别
- 数据挖掘
- 统计学习
- 计算机视觉
- 语音识别
- 自然语言处理
3.基本流程与工作环节
3.1 数据驱动方法
数据 + 机器学习算法 = 预测模型
3.2 基本流程
1.数据预处理
数据决定模型效果上限,算法使得模型接近上限
- 数据采样
- 数据切分
- 特征抽取:row data -> feature
- 降维
- 特征选择
2.模型学习
- 模型选择
- 模型训练
- 交叉验证
- 结果评估
- 超参选择
3.模型评估
分类、回归、排序评估标准
4.模型上线