什么是机器学习 o 机器学习的发展史 o 学习系统的一般框架 o 学习策略 o 神经学习 o 机器学习的应用

机器学习算法：决策树、聚类、贝叶斯分类、支持向量机、最大期望算法EM、Adaboost等。

What is Machine Learning

学习

一个有特定目的的知识获取和能力增长过程。

内在行为：获取知识、积累经验、发现规律（归纳）等。（大数据）

外部表现：改进性能、适应环境、实现自我完善等

是人类获取知识的重要途径和人工智能的重要标志

学习系统的一般框架

自动学习数据规律 2.机器学习（分类/回归） 3.强化学习（预测结果自行修正模型）

按学习能力分类监督学习（有教师学习 supervised learning）

再励学习（强化学习或增强学习）

非监督学习（无教师学习，Unsupervised learning）

监督学习就是标明一些数据是对的，另一些数据是错的，然后让程序预测，新的数据是对的还是错的。所以说，有监督学习，必须是有标签的。

扫描二维码关注公众号，回复： 4591539 查看本文章

无监督学习，顾名思义，就是不对数据进行标明，让机器自动去判断，哪些数据比较像，归到一类等等。

强化学习不是依赖数据的标签进行学习，而是依赖自己积累的反馈。强化学习适合学习交互过程，比如下围棋（AlphaGo的成功就是强化学习的力量）。

聚类（群分析）

特点： 1.研究样品或指标分类问题的一种统计分析方法，所划分的类是未知的。 2.能帮助市场分析人员从客户基本库中发现不同的客户群，用购买模式刻画不同客户群特征。生物学植物、动物分类，地球观测数据库中相似地区的确定，web文档分类。 3.小于200个数据对象的小数据集合较好，但是大规模数据样本可能聚合结果有偏。

决策树（Decision tree）

根据特征进行分类，每个节点提出问题，通过判断，将数据分为两类，再继续提问；这些问题是在已知各种情况发生概率基础上，构成决策树求取净现值大于等于0的概率，再投入新数据时可根据树上的问题，将数据划分到合适叶子上。 o 监管学习方法，事先确定每个样本的属性和类别，节点表示属性测试，每个分支表示测试输出，叶节点表示类别。

o 优点： ü 易于理解和实现，学习中不需了解太多背景知识，直接体现数据特点； ü 数据准备简单或不必要，能同时处理数据型和常规型属性； ü 易于通过静态测试对模型评测（可信度）、逻辑表达式；

o 缺点： ü 对连续性的字段比较难预测； ü 对有时间顺序的数据，需要很多预处理工作； ü 类别太多时，错误可能增加比较快； ü 一般算法分类，都只是根据一个字段来分类；

随机森林（Random Forest）

o 用来做市场营销模拟的建模，统计客户来源，保留和流失，预测疾病风险和病患者的易感性等估计推断映射问题。 o 基本单元为决策树，集成学习方法（Ensemble Learning）。 o 随机：集成所有分类投票结果，投票次数最多的类别为最终输出，最简单的Bagging思想（若干个弱分类器的分类结果投票选择后组成强分类器）。 o任何东西扔进去可用

o 源数据中随机选取数据，组成几个子集

o S矩阵是源数据，1-N条数据， A、B、C是feature，C列是类别

o 由S随机生成M个子矩阵

o M个子集得到 M 个决策树：将新数据投入到这M个树中，得到M个分类结果，计数看预测成哪一类的数目最多，将此类别作为最后的预测结果。

特点： 1.具有极好的准确率； 2.有效运行在大数据集上； 3.能够处理具有高维特征的输入样本，不需降维； 4.能够评估各个特征在分类问题上的重要性； 5.生成过程中，能获取到内部生成误差的一种无偏估计； 6.对于缺省问题也能获得较好结果； 7.不需要像SVM那样做参数的调试；

朴素贝叶斯

NLP 应用：一段文字返回情感分类，文字态度是positive，还是 negative

通过bayes rules变成一个比较简单容易求得的问题（概率）：单词“love ”在 positive情况下出现概率是 0.1 ，在negative的情况下出现的概率是0.001。

K近邻算法

o 给一个新数据时，离它最近的k个点中，哪个类别多，这个数据就属于哪一类。 o 例：要区分“猫”和“狗” ，通过“ claws ”和“ sound”两个feature来判断的话，圆形和三角形是已知分类的了，那么这个“ star ”代表的是哪一类呢？k=3

Deep Learning

（通过组合底层特性形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。）

深度学习：把复杂抽象形状问题，分解成简单的边、角、长度问题。

机器学习：人工确定分类问题所需要的“面部特征” 。

深度学习：自动找出分类问题所需要的“面部特征” 。

1.首先确定哪些边、角与分类识别关系最大； 2.基于很多的边、角等小元素构建层级网络，找出各种组合； 3.基于层级网络的组合识别分类。

深度学习适合处理大数据，数据量小用传统机器学习方法。

硬件依赖：深度学习计算量大（矩阵运算），依赖高端硬件设施（GPU）

ü 特征工程：机器学习需要行业专家训练模型前确定特征；深度学习算法自己从数据中学习特征，降低了发现特征的成本。

ü 运行时间：深度学习由于太多参数需要训练时间长（顶级算法ResNet两周训练时间），机器学习一般几秒最多几小时完成训练。但深度学习训练好后预测任务运行快，可实时检测。

ü 可理解性：目前阶段深度学习难以理解，无法解释神经网络每层代表的特征和内部规则，无法把训练模型用于对预测任务进行解释。但机器学习可以明确的说明每个特征和规则。

解决问题方式：机器学习算法先按模块分解问题，解决后再组合起来；深度学习是端对端解决

学习策略

解决过拟合-->模型融合

机器学习应用

机器学习常用工具scikit-learn • Machine Learning in Python • Simple and efficient tools for data mining and data analysis • Accessible to everyone,and reusable in various contexts • Built on NumPy,SciPy and matplotlib • Open source, commercially usable-BSD license

• 机器学习系统模型 • 监督学习的输入输出 • 各种算法的优缺点和适应场景 • 算法模型的评价和验证 • 数据的筛选和解读开发环境： Anaconda（jupyter notebook） Eclipse or PyCharm

人工智能 7.2机器学习

What is Machine Learning

学习系统的一般框架

学习策略

机器学习应用

猜你喜欢