1.1 统计学习方法概论(个人笔记与随感)

个人随感,不可轻信,如有意见,欢迎指点。

1.1 统计学习

1. 统计学习的特点
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运行模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning).

数据可以揭示客观规律发展的趋势性,即从历史推未来,因为事件发生具有要素,并且事件的发生具有规律, 要素可以统计,通过统计得到的记录对事件发生的预测分析。

统计学习的主要特点是:

  • (1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的。怎么说?
  • (2)统计学习以数据为研究对象,是数据驱动的学科;

事件的发生都是留有痕迹的,对于现在的人类所有的能力来说,有庞大的事件发生痕迹都是对我们可见的(因为我们的感知能力(技术)在不断发展),而事件又是具有规律性的,既然事件的整个发生过程都是对我们可见,我们自然可以捕捉并分析其中的规律,进而在之后事件发生的开始我们就可以预测事件的整个发生过程,举个栗子,宇宙从前是对我们不可见的,然后由于技术的发展(观测技术),我们能够感知到宇宙的更多运动过程(也可理解为事件),我们当然可以不断的去跟踪事件,由于事件具有其规律性(动总是伴随着规律性), 所以我们就可以去探究宇宙的起始与结束,这里的数据就是事件发生的痕迹,由痕迹可以推出过去、起始点、以及变化阶段(就像一辆车以匀速运动,我们只需知道其中一段距离,就可以知道它的速度,进而就可以判断它的未来位移状况,为何是判断而不是笃定,因为预测的过程是根据过去,我们无法验证数据百分百与事件联系,考虑偶然性)。

我们的感知技术也在不断的进步,人类一边在扩大感知范围,比如物联网,我们就可以通过给物体嵌入智能系统进而通过更多的视角或者接口来探知更多事件发生的痕迹。

任何活动都离不开数据,而统计仅仅是因为它专注与数据本身,即并非为了 实现 B 而用 A ,而是对 A 更感兴趣,身边的所有人都在用数据,但没有人会真正去研究数据,而真正研究数据的工作,我们把它交给了统计。

  • (3)统计学习的目的是对数据进行预测与分析(即分析事件发生的痕迹)。
  • (4)统计学习以方法为中心, 统计学习方法构建模型并应用模型进行预测与分析;
  • (5)统计学习是概率论、统计学、信息论、计算理论、最优化理论以及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。

科学的一个重要过程就是结合,比如物联网的出现就是感知技术、计算机科学技术以及信息通信技术的发展而解锁的,没错,就像我们玩游戏角色的各个属性有了一定的提升自然就会解锁新的技能。
数学是一门神奇的学科,我们都知道有信息世界与物理世界,也就是我们生活的世界,信息世界可以将物理世界用信息节点与联系的方式抽象出来,我认为数学也可以做到, 就像原子与生物体,数学更像是世界的最底层,它反映着我们无法看到的客观规律,只有我们通过数字去抽象生活中的事物,运用数学就会发现事物的规律。

Herbet A . Simon 曾对“学习”给出以下定义; “如果一个系统能够通过执行某个过程改进它的性能,这就是学习”。(alterable、A way to get better)

统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。 很显然这是对于计算机系统而言, 如果对于我们人类来说,这个词叫成长。

2. 统计学习的对象

我们已经说了,统计学习,也就是我们所了解的机器学习,它是对于计算机系统而言的, 学习的主体是计算机系统,那么学习的对象是什么? 即通过学习什么来“成长”?

————数据(data)

不得不说,这再适合不过了,人适合数据吗?不适合,人的大脑是用来创造东西的,不是用来记忆东西的,而计算机系统恰恰是解决数据的好手,我们之前讲过我们通过探究事件发生的痕迹来寻找规律,我们不是通过像叙事一样的方法来把痕迹记录下来,而是通过数据(即需要逻辑归纳),比如说,有一个人好几天买了西瓜(刚看了周志华的书),他发现好的西瓜好像有规律,他想探索这个规律,预测以后买的西瓜,他不会这样写:
Day1 今天去李大婶的摊上买了颗西瓜,李大婶给我拿了一棵颜色比较青绿的西瓜,我敲了一下,声音有点沉闷,我回去切开吃,发现西瓜很甜。
Day2 今天去王大爷家吃西瓜,他家西瓜也很甜,我看了一下,颜色也比较青绿……
说实话,这算是有心人了,但是也架不住这样记录,
所以我们需要逻辑归纳,这就是数据,删掉那些与客观规律没有关系的,你要关注西瓜,你管他是李婶儿还是王叔,应该这样记录:
1 颜色:青绿,敲声:沉闷 …
2 颜色: 青绿, 敲声:…
……

由于计算机对于数字的处理得心应手,只需要经过一定的处理,数据很容易就变成了计算机善于处理的数字,计算机系统通过数据进行学习,提取数据的特征,抽象出数据的膜性能,发现数据中的知识,这里的数据可以延伸到各种数字、文字、图形、视频、音频数据以及它们的组合。

统计学习关于数据的基本假设:

同类数据具有一定的统计规律性。这是统计学习的前提。

这里的同类数据是指具有某种共同性质的数据,比如互联网网页,数据库中的数据等,由于它们具有统计规律性,所以可以用概率统计方法来加以处理。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。

最终目的

对数据的预测与分析是通过构建概率统计模型实现的,统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能的提高学习效率。

统计学习的方法

  • 从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布的产生的。
  • 并且假设要学习的模型属于某个函数的集合,称为假设空间
  • 应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;
  • 最优模型的选取由算法实现。

统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。 称为统计学习方法的三要素。 简称为 模型(model)策略(strategy)和算法(algorithm).

实现统计学习方法的步骤如下:

  • 得到一个有限的训练数据集合;
  • 确定包含所有可能的模型的假设空间,即学习模型的集合;
  • 确定模型选择的准则,即学习的策略;
  • 实现求解最优模型的算法,即学习的算法;
  • 通过学习方法选择最优模型;
  • 利用学习的最优模型对新数据进行预测或分析。
发布了202 篇原创文章 · 获赞 4 · 访问量 4230

猜你喜欢

转载自blog.csdn.net/qq_44587855/article/details/103875862