数据挖掘和数据仓库

数据挖掘

概念

基于AI、机器学习、统计学等技术，高度自动化的分析原有数据，进行归纳推理，从数据仓库中提取可信的、新颖的、有效的、人们感兴趣的、别人能理解的知识的高级处理过程。

模式分类：

预测性模式或描述性模式

实际应用中可细分为：关联模式、分类模式、聚类模式、序列模式

目的

提高市场的决策能力，检测异常模式，在过去经验的基础上预言未来的趋势。

在数据库中找规律

步骤：

数据准备
- 数据集成
- 数据选择
- 预分析
挖掘
- 过程：
  - 数据的选择：选择相关的数据
  - 数据的精华：消除噪音、冗余数据
  - 数据的推测：推算缺失数据
  - 数据的转换：离散值数据与连续数据之间的相互转换、数据值的分组分类、数据项之间的计算组合。
  - 数据的缩减：减少数据量
表述
评价

数据挖掘的任务

从大量的数据中发现模式：

预测模型
- 回归分析
- 线性模型
- 关联规则
- 决策树预测
- 遗传算法
- 神经网络
关联分析
- 目的：发现项目集之间的关联
- 算法：APRIORI算法、DHP算法、DIC算法等
- 在这些算法中常常引入置信度和支持度两个概念
分类分析
- 根据数据的特征为每个类别建立一个模型，根据数据的属性将数据分配到不同的组中。
- 常用算法：约略(Rough)集、决策树、神经网络、统计分析法
聚类分析
- 将彼此间非常"相似"的数据对象分成一个集合，相似的程度可以通过距离函数表示
- 常用算法：随机搜索聚类法、特征聚类、CF树
序列分析
- 主要应用于分析数据仓库中的某类和时间相关的数据，搜索类似的序列和子序列，并挖掘时序模式、周期性、趋势和偏离等。
偏差检测
模式相似性挖掘
Web数据挖掘

数据挖掘的结构

采用三层C/S结构：用户界面、数据挖掘引擎、数据仓库

数据挖掘的常用技术

生物学方法
- 人工神经网络
- 遗传算法
信息论方法
- 决策树
集合论方法
- 约略集
- 模糊集
- 最近邻技术
统计学方法
可视化方法

数据准备

准备的是否充分影响到数据挖掘的效率和准确度，以及最终模式的有效性,Include:

数据的选择，选择相关的数据
数据的精华，消除噪音，冗余数据
数据的推测，
数据的转化
数据的缩减

数据仓库

存在的意义：

频繁交互数据库的同时进行大量复杂运算，会有很高的时间复杂度。So。。

适用范围

信息源中的数据变化稳定
可预测应用不需要更新的数据
允许有延迟，应用要求有较高的查询性能而降低精度要求。

特点

面向主题
集成性
稳定性
时变性

技术要求

大量数据的组织和管理
复杂分析的高性能体现
怼提取出来的数据进行集成
界面支持

	数据库	数据仓库
主要任务	OLTP(联机事务处理)	OLAP(联机分析处理)
	细节的	综合的
	在存取瞬间是准确的	代表过去的数据
	可更新	不可更新、只读
	面向应用	面向分析
	一次操作数据量小	一次操作数据量大
	操作需求可事先知道	操作需要事先不知道

Q：那直接用数据仓库不就行了，为什么要分离？

A：主要原因是提高两个系统的性能，数据库是为已知的任务和负载设计的

扫描二维码关注公众号，回复： 11312679 查看本文章

而数据仓库的查询通常是复杂的，设计大量数据在汇总级的计算，在操作数据库系统上处理OLAP查询，会打打降低操作任务的性能。

数据仓库的实现

立方体计算：立方体总数T如果10维每维4个层次产生的方体数是5的10次方。

So，物化所有方体是不现实的，比较合理的方法是物化部分

Q:数据挖掘和数据仓库为什么联合使用

A:谈么你都可以完成决策的过程的支持，并且相互间有一定的内在联系，集成在一起可以更加有效的提高系统的决策支持能力。