机器学习笔记(一):机器学习基本知识概述
目录
一、机器学习概述
1.人工智能
- 第一阶段:推理期
- 第二阶段:知识期(专家系统:DENDRAL)
- 第三阶段:学习期
“文献筛选”的故事:
- “循证医学(evidence-based medicine)”:查询PubMed获取摘要,人工筛选出值得全文阅读的文章。
- 婴儿和儿童残疾的研究:33000篇摘要,每篇30秒,共250个小时;引入机器学习的分类模型。如下图所示:
2.机器学习的定义
- 1956 年提出 AI 概念,短短3年后(1959) Arthur Samuel就提出了机器学习的概念:“机器学习研究和构建的是一种特殊算法,能够让计算机自己在数据中学习从而进行预测。”
- 1998年,另一位著名的机器学习研究者Tom Mitchell提出了一个更精确的定义:“对于某类任务 T 和性能度量 P,如果一个计算机程序在 T 上以 P 衡量的性能随着经验 E 而自我完善,那么我们称这个计算机程序在从经验 E 中学习。”
- 百度百科:机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
- 机器学习(维基百科):机器学习是利用计算机算法和统计模型是计算机系统使用,逐步提高完成特定任务的能力。
3.机器学习的时期
- 人工智能进入 “机器学习时期”
- 机器学习时期
1)80年代,连接主义较为流行,代表工作有感知机(Perceptron)和神经网络(Neural Network);
2)90年代,统计学习方法开始占据主流舞台,代表性方法有支持向量机(Support Vector Machine);
3)进入21世纪,深度神经网络被提出,连接主义卷土从来,随着数据量和计算能力的不断提 升,以深度学习(Deep Learning)为基础的诸多AI应用逐渐成熟。
4.人工智能中逻辑推理的两种方法
5.机器学习与其他
6.机器学习的本质
来自知乎
- 机器学习本质上是一种特殊算法,由数据分析习得,而且不依赖于规则导向的程序设计。
- 机器学习的本质是一种基于数据统计的方法。
- 机器学习就是大数据思维,直接以挖掘数据内部的模式来驱动我们的预测。
- 机器学习就是研究“人类自己认识这个世界的过程”。
二、机器学习算法体系
1. 以学习方式归类
- 监督学习:训练数据,有一个明确标识或结果,如分类问题和回归问题等
- 无监督学习:不被标识,推断数据的一些内在结构,如关联规则的学习和聚类等
- 半监督学习:部分被标识,部分没有被标识,如分类和回归等
- 强化学习:输入数据作为对模型的反馈,如动态系统和机器人控制等
2.以应用场景归类
两个主流的应用场景:
- 回归问题
- 分类问题
3.以算法特点归类
三、算法选择
1. 依据数据和学习方法的选择
- 用来分类 ,如:K近邻法、感知机、朴素贝叶斯法、决策树、随机森 Logistic/softmax- 回归、SVM、AdaBoost、贝叶斯网络、神经网络等。
- 回归的有 :线性回归、SVR、DTR、CART、随机森林、ANN等。
- 有些都可: 既可以分类也可以回归。例如CART,只在于选择不同的目标函数和不同的结点分支指标; 如ANN,不做softmax就是回归。
2.依据数据量和数据特点选择
对应的英文版本:
3.依据算法性能特点的选择
最好:RF(随机森林RF、SVM、神经网络)
其次:SVM
优秀:RF、SVM、C5.0
- 首当其冲应该选择的就是逻辑回归,如果它的效果不怎么样,那么可以将它的结果作为基准来参考,在基础上与其他算法进行比较;
- 然后试试决策树(随机森林),看看是否可以大幅度提升你的模型性能。即便最后你并没有把它当做为最终模型,你也可以使用随机森林来移除噪声变量,做特征选择;
- 如果特征的数量和观测样本特别多,那么当资源和时间充足时(这个前提很重要),使用SVM不失为一种选择。
- 通常情况下:【GBDT>=SVM>=RF>=Adaboost>=Other…】;
- 现在深度学习很热门,很多领域都用到,它是以神经网络为基础的。
四、机器学习应用的流程
机器学习方法=模型+策略+算法
- 数据建模-模型:描述客观世界、抽象
- 模型构造-策略:选择合适的模型
- 模型的实现-算法:优化模型参数
数据的质量及数量以及模型是否合适与算法共同决定了机器学习的效果
实际操作中的主要步骤: