人工智能 7.2机器学习

版权声明:本文为博主原创文章,转载请声明原创网址。 https://blog.csdn.net/lagoon_lala/article/details/85141119

什么是机器学习 o 机器学习的发展史 o 学习系统的一般框架 o 学习策略 o 神经学习 o 机器学习的应用

机器学习算法:决策树、聚类、贝叶斯分类、支持向量机、最 大期望算法EM、Adaboost等。

What is Machine Learning

学习

 一个有特定目的的知识获取和能力增长过程。

 内在行为:获取知识、积累经验、发现规律(归纳) 等。(大数据)

 外部表现:改进性能、适应环境、实现自我完善等

 是人类获取知识的重要途径和人工智能的重要标志

学习系统的一般框架

  1. 自动学习数据规律 2.机器学习(分类/回归) 3.强化学习(预测结果自行修正模型)

按学习能力分类 监督学习(有教师学习 supervised learning)

再励学习(强化学习或增强学习)

非监督学习(无教师学习,Unsupervised learning)

监督学习就是标明一些数据是对的,另一些数据是错的,然后让程序预测,新的数据是对的还是错的。所以说,有监督学习,必须是有标签的。

扫描二维码关注公众号,回复: 4591539 查看本文章

无监督学习,顾名思义,就是不对数据进行标明,让机器自动去判断,哪些数据比较像,归到一类等等。

强化学习不是依赖数据的标签进行学习,而是依赖自己积累的反馈。强化学习适合学习交互过程,比如下围棋(AlphaGo的成功就是强化学习的力量)。

 

聚类(群分析)

特点: 1.研究样品或指标分类问题的一种统计分析方法,所划分的 类是未知的。 2.能帮助市场分析人员从客户基本库中发现不同的客户群, 用购买模式刻画不同客户群特征。生物学植物、动物分类,地 球观测数据库中相似地区的确定,web文档分类。 3.小于200个数据对象的小数据集合较好,但是大规模数据 样本可能聚合结果有偏。

决策树(Decision tree)

根据特征进行分类,每个节点提出问题,通过判断,将数据分为 两类,再继续提问;这些问题是在已知各种情况发生概率基础上, 构成决策树求取净现值大于等于0的概率,再投入新数据时可根据 树上的问题,将数据划分到合适叶子上。 o 监管学习方法,事先确定每个样本的属性和类别,节点表示属性 测试,每个分支表示测试输出,叶节点表示类别。

o 优点: ü 易于理解和实现,学习中不需了解太多背景知识,直接体 现数据特点; ü 数据准备简单或不必要,能同时处理数据型和常规型属性; ü 易于通过静态测试对模型评测(可信度)、逻辑表达式;

o 缺点: ü 对连续性的字段比较难预测; ü 对有时间顺序的数据,需要很多预处理工作; ü 类别太多时,错误可能增加比较快; ü 一般算法分类,都只是根据一个字段来分类;

随机森林(Random Forest)

o 用来做市场营销模拟的建模,统计客户来源,保留和流失, 预测疾病风险和病患者的易感性等估计推断映射问题。 o 基本单元为决策树,集成学习方法(Ensemble Learning)。 o 随机:集成所有分类投票结果,投票次数最多的类别为 最终输出,最简单的Bagging思想(若干个弱分类器的 分类结果投票选择后组成强分类器)。 o任何东西扔进去可用

o 源数据中随机选取数据,组 成几个子集

o S矩阵是源数据,1-N条数据, A、B、C是feature,C列是类 别

o 由S随机生成M个子矩阵

o M个子集得到 M 个决策树:将新数据投入到这M个树中,得 到M个分类结果,计数看预测成哪一类的数目最多,将此类 别作为最后的预测结果。

特点: 1.具有极好的准确率; 2.有效运行在大数据集上; 3.能够处理具有高维特征的输入样本,不需降维; 4.能够评估各个特征在分类问题上的重要性; 5.生成过程中,能获取到内部生成误差的一种无偏估计; 6.对于缺省问题也能获得较好结果; 7.不需要像SVM那样做参数的调试;

 

朴素贝叶斯

NLP 应用:一段文字返回情感分类,文字态度是positive,还是 negative

通过bayes rules变成一个比较简单容易求得的问题(概率):单词“love ”在 positive情况下 出现概率是 0.1 ,在negative的 情况下出现的概 率是0.001。

K近邻算法

o 给一个新数据时,离它最近的k个点中,哪个类别多,这个 数据就属于哪一类。 o 例:要区分“猫”和“狗” ,通过“ claws ”和“ sound”两 个feature来判断的话,圆形和三角形是已知分类的了,那 么这个“ star ”代表的是哪一类呢?k=3

Deep Learning

(通过组合底层特性形成更加抽象 的高层表示属性类别或特征,以发现数据的分布式特征表示。)

深度学习:把复杂抽象形状问 题,分解成简单的边、角、长 度问题。

 

机器学习:人工确定分类问题所需要的“面部特征” 。

深度学习:自动找出分类问题所需要的“面部特征” 。

1.首先确定哪些边、角与分类识别关系最大; 2.基于很多的边、角等小元素构建层级网络,找出各种组合; 3.基于层级网络的组合识别分类。

深度学习适合处理大数据,数据量小用传统机器学习方法。

硬件依赖:深度学习计算量大(矩阵运算),依赖高端硬 件设施(GPU)

ü 特征工程:机器学习需要行业专家训练模型前确定特征; 深度学习算法自己从数据中学习特征,降低了发现特征的 成本。

ü 运行时间:深度学习由于太多参数需要训练时间长(顶级算 法ResNet两周训练时间),机器学习一般几秒最多几小时完成 训练。但深度学习训练好后预测任务运行快,可实时检测。

ü 可理解性:目前阶段深度学习难以理解,无法解释神经网 络每层代表的特征和内部规则,无法把训练模型用于对预 测任务进行解释。但机器学习可以明确的说明每个特征和 规则。

解决问题方式:机器学习算法先按模块分解问题,解决后 再组合起来;深度学习是端对端解决

学习策略

解决过拟合-->模型融合

机器学习应用

机器学习常用工具scikit-learn • Machine Learning in Python • Simple and efficient tools for data mining and data analysis • Accessible to everyone,and reusable in various contexts • Built on NumPy,SciPy and matplotlib • Open source, commercially usable-BSD license

• 机器学习系统模型 • 监督学习的输入输出 • 各种算法的优缺点和适应场景 • 算法模型的评价和验证 • 数据的筛选和解读 开发环境: Anaconda(jupyter notebook) Eclipse or PyCharm

猜你喜欢

转载自blog.csdn.net/lagoon_lala/article/details/85141119