数据挖掘和数据仓库

数据挖掘和数据仓库

数据挖掘

概念

基于AI、机器学习、统计学等技术,高度自动化的分析原有数据,进行归纳推理,从数据仓库中提取可信的、新颖的、有效的、人们感兴趣的、别人能理解的知识的高级处理过程。

模式分类:

预测性模式或描述性模式

实际应用中可细分为:关联模式、分类模式、聚类模式、序列模式

目的

提高市场的决策能力,检测异常模式,在过去经验的基础上预言未来的趋势。

在数据库中找规律

步骤:

  • 数据准备
    • 数据集成
    • 数据选择
    • 预分析
  • 挖掘
    • 过程:
      • 数据的选择:选择相关的数据
      • 数据的精华 :消除噪音、冗余数据
      • 数据的推测:推算缺失数据
      • 数据的转换:离散值数据与连续数据之间的相互转换、数据值的分组分类、数据项之间的计算组合。
      • 数据的缩减:减少数据量
  • 表述
  • 评价

数据挖掘的任务

从大量的数据中发现模式:

  • 预测模型
    • 回归分析
    • 线性模型
    • 关联规则
    • 决策树预测
    • 遗传算法
    • 神经网络
  • 关联分析
    • 目的:发现项目集之间的关联
    • 算法:APRIORI算法、DHP算法、DIC算法等
    • 在这些算法中常常引入置信度和支持度两个概念
  • 分类分析
    • 根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。
    • 常用算法:约略(Rough)集、决策树、神经网络、统计分析法
  • 聚类分析
    • 将彼此间非常"相似"的数据对象分成一个集合,相似的程度可以通过距离函数表示
    • 常用算法:随机搜索聚类法、特征聚类、CF树
  • 序列分析
    • 主要应用于分析数据仓库中的某类和时间相关的数据,搜索类似的序列和子序列,并挖掘时序模式、周期性、趋势和偏离等。
  • 偏差检测
  • 模式相似性挖掘
  • Web数据挖掘

数据挖掘的结构

采用三层C/S结构:用户界面、数据挖掘引擎、数据仓库

数据挖掘的常用技术

  • 生物学方法
    • 人工神经网络
    • 遗传算法
  • 信息论方法
    • 决策树
  • 集合论方法
    • 约略集
    • 模糊集
    • 最近邻技术
  • 统计学方法
  • 可视化方法

数据准备

准备的是否充分影响到数据挖掘的效率和准确度,以及最终模式的有效性,Include:

  • 数据的选择,选择相关的数据
  • 数据的精华,消除噪音,冗余数据
  • 数据的推测,
  • 数据的转化
  • 数据的缩减

数据仓库

存在的意义:

频繁交互数据库的同时进行大量复杂运算,会有很高的时间复杂度。So。。

适用范围

  • 信息源中的数据变化稳定
  • 可预测应用不需要更新的数据
  • 允许有延迟,应用要求有较高的查询性能而降低精度要求。

特点

  • 面向主题
  • 集成性
  • 稳定性
  • 时变性

技术要求

  • 大量数据的组织和管理
  • 复杂分析的高性能体现
  • 怼提取出来的数据进行集成
  • 界面支持
数据库 数据仓库
主要任务 OLTP(联机事务处理) OLAP(联机分析处理)
细节的 综合的
在存取瞬间是准确的 代表过去的数据
可更新 不可更新、只读
面向应用 面向分析
一次操作数据量小 一次操作数据量大
操作需求可事先知道 操作需要事先不知道
Q:那直接用数据仓库不就行了,为什么要分离?

A:主要原因是提高两个系统的性能,数据库是为已知的任务和负载设计的

扫描二维码关注公众号,回复: 11312679 查看本文章

而数据仓库的查询通常是复杂的,设计大量数据在汇总级的计算,在操作数据库系统上处理OLAP查询,会打打降低操作任务的性能。

数据仓库的实现

立方体计算:立方体总数T如果10维每维4个层次产生的方体数是5的10次方。

So,物化所有方体是不现实的,比较合理的方法是物化部分

Q:数据挖掘和数据仓库为什么联合使用

A:谈么你都可以完成决策的过程的支持,并且相互间有一定的内在联系,集成在一起可以更加有效的提高系统的决策支持能力。

猜你喜欢

转载自blog.csdn.net/un_lock/article/details/106482199
今日推荐