读《数据挖掘-实用机器学习技术》笔记

数据挖掘是通过分析存在于数据库里的数据来解决问题。在激烈的竞争市场上，客户忠诚度摇摆问题就是一个经常提到的事例，一个有关客户商品选择以及客户个人资料的数据库是解决这个问题的关键。以前客户的行为模式能够被用来分析并识别哪些喜欢选购不同的商品。甄别出那些善变的客户群体，并加以特殊对待，须知对整个客户群都加以特殊对待的成本是高昂的。

数据挖掘被定义为找出数据中的模式的过程。这个过程必须是自动的或半自动的。数据的总量是相当可观的，但从中发现的模式必须是有意义的，并能产生出一些效益，通常是经济上的效益。

如何表示数据模式呢？有价值的模式能够让我们在新数据上作出非凡的预测。表示一个模式有两种极端方法：一种是内部结构很难被理解的黑匣子；一种是展示模式结构的透明的匣子，它的结构揭示了模式的结构。我们假设两种方法都能作出好的预测，它们的区别在于被挖掘初的模式能否以结构的形式表现，这个结构是否能够经得起分析，理由是否充分，能否用来形成未来的决策。如果模式能够以显而易见的方法获得决策结构，我们就称它们为结构模式，换句话说，它们能帮助解释有关数据的一些现象。

在现实中，数据集不可避免地存在一些样本，这些样本中的某些属性值因为一些原因而不可知、例如数据没有被测量、丢失或其他原因。但是在通常情况下，因为数据中存在一些错误或者“干扰”，错误的分类的情况会发生在用来训练分类器的数据上。

学习在字典中的定义如下:

通过学习、体验或者被教授而得到知识。

从信息或观察中得知。

获得记忆。

被告知、查明。

接受指令。

以前我们是从可操作的角度上定义机器学习：是从大量的数据中自动或半自动地寻找模式的过程，而且这个模式必须有用的。我们可以用同样的方法为学习建立一个可操作的定义：

当事物以令其自身在将来表现更好为标准来改变其行为时，它学到了东西。

在学习中，目的是学习者的目的，而在训练中，目的是老师的目的。

通常真实的数据集存在一个问题：就是私有的属性。没有人愿意与你共享他们的客户和产品选购的数据库，从中让你理解他们的饿数据挖掘的应用和如何工作的细节。公共的数据是非常宝贵的资源，它们的价值随着挖掘技术的发展而急剧增加。

决策列概念：规则按照先后次序判断，看第一条是否适用，如果不适用，继续下去，如果一组规则按次序判断，就是决策列问题。决策列中不能单独地使用嘴个进行判断。

数值属性问题和混合属性问题。

规则当然可以分类，但不止于此，仅仅寻找一些规则，这些规则和不同的属性值紧密关联，称为关联规则。

在训练过程中，出现的问题：

（1）用于训练的数据极少，有些事件是很少发生的，而为了避免这些事件如果人工进行分类，成本将造成极其昂贵。用机器学习成本降低。

（2）问题的不均衡性，在训练数据中，极少真正例，有些是假正例。

（3）样本自然地组成批，每一批都是从一个图像中提取的区域的集合，批与批之间的背景是不一样的。最后作为一个过滤器来完成筛选的工作，并且必须为用户提供一个可变的简便处理方法。

（4）负载预测：为管理上取得更大的经济性。

（5）疾病诊断；

（6）市场和销售：经典是购物篮分析问题。

（7）促销行为的代价是昂贵的，但能产生高额利润，所以广告推荐，并且是推荐是合适的人，将是非常有趣的。

（8）其他方面应用。

（9）机器学习和统计学问题。

（10）用于搜索的概括。

（11）枚举概念空间。

（12）偏差：包括语言偏差、搜索偏差、过度拟合偏差。

（13）数据挖掘和道德问题。这个话题比较新颖。

读《数据挖掘-实用机器学习技术》笔记

猜你喜欢