读书笔记：数据挖掘-概念与技术第一章引论

其他 2018-11-24 16:26:24 阅读次数: 0

以下内容均为书中个人觉得重要内容的提取，目的仅为了解这个领域，随时弃坑

第一章引论

数据挖掘

1.1 为什么进行数据挖掘？

数据挖掘把大型数据集转换成知识。
`数据挖掘是信息技术的进化.
数据仓库：一种多个异构数据源在单个站点以统一的模式组织的存储，以支持管理决策。
数据丰富，但信息频发。

1.2 什么是数据挖掘？

数据中的知识发现(KDD)，由以下步骤的迭代序列组成
1. 数据清理
2. 数据集成 信息产业界的一个流行趋势是将数据清理和数据集成作为预处理步骤执行
3. 数据选择
4. 数据变换
5. 数据挖掘
6. 模式评估
7. 知识表示
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

1.3 可以挖掘什么类型的数据

1.3.1 数据库数据

关系数据库是表的汇集。
当数据挖掘用于关系数据库时，你可以进一步搜索趋势或数据模式。

1.3.2 数据仓库

数据仓库是一个从多个数据源手机的信息存储库。
数据仓库用称做“数据立方体”的多维数据结构建模。

1.3.3 事务数据

一般来说，事务数据库的每个记录代表一个事物（如一次购物，一个网页点击）。
通常每个事物包含一个唯一的事物标识号。

1.3.4 其他类型的数据

如
- 时间相关或序列数据
- 数据流
- 空间数据
- 工程设计数据
- 超文本和多媒体数据
- 图和网状数据
- 万维网

1.4 可以挖掘什么类型的数据

一般而言，可以分为两类：描述性和预测性。

1.4.1 类/概念描述：特征化和区分

数据特征化是目标类数据的一般特性或特征的汇总。
数据特征化的输出可以用多种形式提供，如饼图、条图、曲线、多维数据立方体和多维度表。结果描述也可以用广义关系或规则形式提供。
数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

1.4.2 挖掘频繁模式、关联和相关性

频繁模式是在数据中频繁出现的模式

1.4.3 用于预测分析的分类与回归

1.4.4 聚类分析

1.4.5 离群点分析

离群点的数据分析称作离群点分析或异常挖掘

1.4.6 所有模式都是有趣的吗

有趣的模式代表**知识**。
存在一些模式兴趣度的客观度量，一种客观度量是规则的支持度，另一种客观度量是置信度

1.5 使用什么技术？

统计学
机器学习
数据库系统与数据仓库
信息检索、

1.6 面对什么应用

商务智能
Web搜索引擎
生物信息学
卫生保健信息学
金融
数字图书馆

1.7 数据挖掘的主要问题

挖掘方法（1.7.1)
用户界面（1.7.2）
有效性和可伸缩性（1.7.3）
数据库类型的多样性（1.7.4）
数据挖掘与社会

猜你喜欢

转载自www.cnblogs.com/bot-noob-121/p/10012383.html

读书笔记：数据挖掘-概念与技术第一章引论

【数据结构与算法】第一章：引论

《PMBOK》读书笔记之-----第一章-----引论

现代操作系统读书笔记--第一章引论

「读书笔记」《代数学引论: 基础代数》第一章代数基础

《数据结构与算法分析》学习笔记-第一章-引论

PMBOK(第六版) PMP笔记——《一》第一章引论

现代操作系统笔记——第一章引论

操作系统学习笔记第一章操作系统引论

第一章操作系统引论（笔记整理）

PMBOK(第六版) PMP笔记——《二》第一章引论

操作系统课堂笔记——第一章操作系统引论

现代操作系统笔记——第一章引论

【操作系统】第一章--操作系统引论--笔记与理解

数据结构和算法分析：第一章引论

【Data Science】【Database】数据库系统原理（第一章）：引论

第一章引论

PMP第一章：引论

《现代操作系统（中文第四版）》笔记第一章引论

【计算机操作系统学习笔记】第一章：操作系统引论

操作系统原理（汤小丹版）笔记第一章操作系统引论

Java数据结构与算法分析-第一章（引论）-Java中的范型<T,E>构件

第一章数据挖掘的基本概念（读书笔记）

第一章操作系统引论

总结：编译原理－－第一章引论

操作系统--第一章OS引论

【编译原理】第一章引论

第一章操作系统引论（2）

PMP备考指南之第一章：引论

【编译原理】第一章：引论

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)