《数据挖掘概念与技术》学习笔记-第一章

1.1 什么是数据挖掘？

数据挖掘是从大量数据中发现有趣模式和知识的过程，它既不是一种广告宣传，也不是数据库、统计学、机器学习或模式识别发展而来的技术的简单转换或应用。
机器学习的不断发展，为数据挖掘提供了很好的数据分析技术基础，而统计学则帮助人们更好的理解数据的全貌，模式识别也在数据挖掘的过程中被广泛应用，因此，数据挖掘实际上是多种数据分析技术共同发展才得以发展壮大的，并且与这些技术相辅相成，互相促进。
如果把数据挖掘看作知识发现过程，则这一过程涉及以下步骤：
1.数据清理：消除噪声和删除不一致数据
2.数据集成：多种数据源可以组合在一起
3.数据选择：从数据库中提取与分析人物相关的数据
4.数据变换：通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式
5.数据挖掘：基本步骤，使用智能方法提取数据模式
6.模式估计：根据某种兴趣度度量，识别代表知识的真正有趣的模式
7.知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

1.2数据仓库与数据库有什么异同？

数据库与数据仓库的主要区别在于数据集的大小和对数据的处理方式。
数据库处理数据的主要方法是操作型处理，即联机事务处理OLTP(On-Line Transaction Processing)，也可以称为面向交易的处理系统，它是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询和修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发的支持用户数等问题。传统的数据库系统作为数据管理的主要手段，主要用于操作型处理。
数据仓库处理数据的主要方法是分析型处理，即联机分析处理OLAP(On-Line Analytical Processing)，一般针对某些主题历史数据进行分析处理，支持管理决策。
从逻辑层面理解，数据库和数据仓库都是通过数据库软件实现存放数据的地方。

1.3定义下列数据挖掘功能并举例：特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。

1.特征化
数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。通常，通过查询来收集对应于用户指定类的数据。
例：AllElectronics的客户关系经理可能提出如下数据挖掘任务：“汇总一年之内在AllElectronics花费5000美元以上的顾客特征”。结果可能是顾客的概况，如年龄在40～50岁、有工作、有很好的信用等级。
2.区分
数据区分(data discrimination)是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例：AllElectronics的客户关系经理可能相比较两组顾客——定期购买计算机产品的顾客和不经常购买这种产品的顾客。结果描述这些顾客比较的概况，例如频繁购买计算机产品的顾客80%在20～40岁之间，受过大学教育；而不经常购买这种产品的顾客60%或者年龄太大或者太年轻，没有大学学位。
3.关联和相关性分析
关联分析(Association Analysis)是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
相关性分析(Correlation Analysis)是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个因素的相关密切程度。
例：AllElectronics市场部经理想知道哪些商品经常一块被购买。从AllElectronics的事务数据库中挖掘出来的这种规则的一个例子是
buy (X,“computer”)➡️buys(X,“software”)[support = 1%, confidence = 50%]
其中，X是变量，代表顾客。50%的置信度意味着如果一位顾客购买计算机，则购买软件的可能性是50%。1%的支持度意味着所分析的事务的1%现实计算机与软件一起被购买。
4.分类
分类(Classification)是一个过程，它找出描述和区分数据类或概念的模型（或函数），以便能够使用模型预测类标号未知的对象的类标号。
例：AllElectronics的销售经理想根据对促销活动的三种反应，对商店的商品集合分类：好的反应、中等反应和没有反应。根据商品的描述特性对这三类的每一种导出模型。结果分类将最大限度地区别每一类，提供有组织的数据集描述。
5.回归
回归(Regression)用来预测缺失的或难以获得的数值数据值，而不是类标号。
例：根据先前的销售数据，预测在AllElectronics的未来销售中每种商品的收益。
6.聚类
聚类(Clustering)分析数据对象并根据对象之间的相似性生成对象的簇。
例：在AllElectronics的顾客数据上进行聚类分析，识别顾客的同类子群，这些簇可以表示每个购物目标群。
7.离群点分析
离群点分析(Outlier Analysis)用于分析数据集中于一般数据的行为或模型不一致的数据对象。
例：通过检测一个给定账号与正常的付费相比付款数额特别大，离群点分析可以发现信用卡欺诈性使用。

1.4给出一个例子，其中数据挖掘对于工商企业的成功至关重要。

超市销售部门需要利用数据挖掘考察顾客在超市的消费行为，从中挖掘一些模式，利用这些模式更好的制定销售策略。如啤酒、尿布的关联规则分析，这是简单的查询处理或统计分析不能得到的。

1.5解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。

区分是把有不同特征的对象分隔开来，而分类在这个基础上对有相同特征的对象进行了类标号。
特征化汇总了目标数据的一般性特征，而聚类通过分析对象间相似性生成数据的簇，其中每个簇都以类似的一般性特征。
分类用于描述和区分数据的模型，得到离散的类标号，回归用于预测缺失的数据值，得到连续数值。二者采用类似的方法考察数据的特征和规律。

1.6描述一个可能的知识类型，需要由数据挖掘方法发现。

病原菌耐药性数据，需要通过数据挖掘方法来研究影响病原菌耐药性发展状况的因素和它们之间的关系。

1.7以欺诈检测为例，提出两种可以用来检测离群点的方法，并讨论哪种方法更可靠。

基于聚类的方法和基于分类的方法。

1.8描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战

数据清理、离群点检测、不确定推理，个人隐私、针对性挖掘、更好地表达方式

1.9挖掘海量数据的主要挑战是什么

需要处理异种数据集

1.10概述某个特定领域中的数据挖掘的主要挑战

生物信息学，数据挖掘成果与实际应用的结合。

Xavier_8031

发布了6 篇原创文章 · 获赞 24 · 访问量 570

私信关注