读书笔记:数据挖掘-概念与技术 第一章 引论

以下内容均为书中个人觉得重要内容的提取,目的仅为了解这个领域,随时弃坑


第一章 引论

数据挖掘

1.1 为什么进行数据挖掘?

  • 数据挖掘把大型数据集转换成知识。
  • `数据挖掘是信息技术的进化.
  • 数据仓库:一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。
  • 数据丰富,但信息频发。

1.2 什么是数据挖掘?

  • 数据中的知识发现(KDD),由以下步骤的迭代序列组成
    1. 数据清理
    2. 数据集成 信息产业界的一个流行趋势是将数据清理和数据集成作为预处理步骤执行
    3. 数据选择
    4. 数据变换
    5. 数据挖掘
    6. 模式评估
    7. 知识表示
  • 数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

1.3 可以挖掘什么类型的数据

1.3.1 数据库数据

  • 关系数据库的汇集。
  • 当数据挖掘用于关系数据库时,你可以进一步搜索趋势或数据模式。

1.3.2 数据仓库

  • 数据仓库是一个从多个数据源手机的信息存储库。
  • 数据仓库用称做“数据立方体”的多维数据结构建模。

1.3.3 事务数据

  • 一般来说,事务数据库的每个记录代表一个事物(如一次购物,一个网页点击)。
  • 通常每个事物包含一个唯一的事物标识号。

1.3.4 其他类型的数据

    • 时间相关或序列数据
    • 数据流
    • 空间数据
    • 工程设计数据
    • 超文本和多媒体数据
    • 图和网状数据
    • 万维网

1.4 可以挖掘什么类型的数据

  • 一般而言,可以分为两类:描述性和预测性。

1.4.1 类/概念描述:特征化和区分

  • 数据特征化是目标类数据的一般特性或特征的汇总。
  • 数据特征化的输出可以用多种形式提供,如饼图、条图、曲线、多维数据立方体和多维度表。结果描述也可以用广义关系或规则形式提供。
  • 数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

1.4.2 挖掘频繁模式、关联和相关性

  • 频繁模式是在数据中频繁出现的模式

1.4.3 用于预测分析的分类与回归

1.4.4 聚类分析

1.4.5 离群点分析

  • 离群点的数据分析称作离群点分析或异常挖掘

1.4.6 所有模式都是有趣的吗

  • 有趣的模式代表**知识**。
  • 存在一些模式兴趣度的客观度量,一种客观度量是规则的支持度,另一种客观度量是置信度

1.5 使用什么技术?

  • 统计学
  • 机器学习
  • 数据库系统与数据仓库
  • 信息检索、

1.6 面对什么应用

  • 商务智能
  • Web搜索引擎
  • 生物信息学
  • 卫生保健信息学
  • 金融
  • 数字图书馆

1.7 数据挖掘的主要问题

  • 挖掘方法(1.7.1)
  • 用户界面(1.7.2)
  • 有效性和可伸缩性(1.7.3)
  • 数据库类型的多样性(1.7.4)
  • 数据挖掘与社会

猜你喜欢

转载自www.cnblogs.com/bot-noob-121/p/10012383.html
今日推荐