Mac 版R语言机器学习(一)机器学习基础

  • 1. 机器学习历史
  • 2. 深度学习环境配置
  • 3. 机器学习应用领域
  • 4. 机器学习定义

一.机器学习历史

1946年,世界上第一台电子数字积分计算机ENIAC(Electronic Numerical Integrator And Computer)中文读法“艾尼阿克”,是世界上第一台通用计算机。

1950年,计算机科学和密码学的先驱艾伦·图灵(Alan Mathison Turing),的一篇论文《计算机器与智能》,并在该篇论文中提出了著名的“图灵测试(The Turing test)”。

            图灵测试的主要内容:

           “如果电脑能够在5分钟内回答出人类提问的问题,并且超过30%让人误认为是人类所答,那么电脑就通过了测试。”

2014年6月7日,英国皇家学会举行的“2014图灵测试大会”上,聊天程序“尤金•古斯特曼(Eugene Goostman)”首次通过了图灵测试。

1952年,阿瑟·萨缪尔(Arthur Samuel)开发了第一个计算机跳棋程序和第一个具有学习能力的计算机程序。

在通用计算机发明以后,人类在生物学中获得灵感,提出了“神经网络”。而到了1957年的时候,提出了“Perceptron”模型,能够基于两层(只有输入输出层,没有中间层)计算机网络进行模式识别。这种单层的神经网络,无法解决不可线性分割的问题,比如说典型的异或门。传统的Perceptron采用的是梯度下降的算法来纠错,它耗费的计算量和神经元数量过多。

“卷积神经”网络在计算中经常出现两个问题:1.过拟合问题  2.将“nosie”当成“signal”。

60年代,出现“统计机器学习”,提出了“支持向量机”的概念,“支持向量机”存在数学理论上的完备性。


二.深度学习环境配置

GPU:NVIDIA

         GPU可以进行并行运算,NVIDIA的GPU每秒可以达到6.1万亿次运算。


三.机器学习应用场景 

     1.图像识别(安防领域、人脸识别)

     2.游戏(人工智能设置游戏关卡)

     3.搜索(本质上是通过关键词匹配的推荐系统):Search

     4.广告(通过cookies在页面嵌入相关性广告):Ad serving、Recommendation engines

     5.无人驾驶(强化学习)

     6.金融领域:Finance、Asset Allocation、Algo Trading、Fraud Detection

     7.物流:eCommerce

     8.物联网(智能家居):Smart homes

     9.医疗诊断:Medicine

     10.语音识别

     11.Cybersecurity

     12.Write Stories:自动生成新闻稿件


四. 机器学习

      1.机器学习的定义:

  • 不需要明确的编程
  • 输出的产生:数据——模型——输出
  • learing:task, performance(measure),experience(data) 
通过overfitting(过拟合),underfitting(欠拟合)来评估模型


2.机器学习的分类

  • 有监督学习:回归、分类
                              给出数据的features(特征)和instance(样本),label(标记)。label是character类型的则是分类;若是数字则是回归
  • 无监督学习:聚类、降维、异常检测
                            与有监督学习相对,给出的数据不含有label标记,通过找到相似点分类——聚类

                                                                                                                     找出异常点——anomaly detaction(网络攻击、交易数据)

  • 半监督学习
                        有些数据有label,有些数据没有label


3.机器学习的约束

     随着时间的推移,原先可利用的有标签的样本数据可能变得不可用。与新的测试样本的分布产生语义、分布上的缺口。比如,

股票数据就是很有时效性的数据,利用上月份的训练样本学习得到的模型并不能很好的预测本月份的新样本。

     另外,有标签的样本数据往往很匮乏,而且很难获得,在Web数据挖掘领域,新数据不断涌现,已有的训练样本已经不足矣

训练得到一个可靠的分类模型,而标注大量的样本又非常费时费力,而且由于人的主观因素容易导致出错。

   





猜你喜欢

转载自blog.csdn.net/Nicolelovesmath/article/details/70155074