《数据挖掘概念与技术》读书笔记

第一章引论
为什么进行数据挖掘
解决“数据丰富，但信息贫乏”的问题。
数据的爆炸式增长，广泛可用，巨大数量 ——> 数据时代 ——> 需要功能强大和通用的工具，从海量数据中发现有价值的信息。

什么是数据挖掘
从数据中挖掘知识。

数据清理（消除噪声和删除不一致的数据）
数据集成（多种数据源可以组合在一起）
数据选择（从数据库中提取与分析任务相关的数据）
数据变换（通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式）
数据挖掘（基本步骤，使用智能方法提取数据模式）
模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的数据）
知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）

可以挖掘什么类型的数据
数据库数据
由一组内部相关的数据和一组管理和存取数据的软件程序组成。
关系数据库是表的汇集（属性—>字段或列，元祖—>记录或行）。对象被唯一关键字标识，被一组属性值描述。
数据仓库
从多个数据源收集的信息储存库（例如分部遍布全世界的公司的数据库）

事务数据
每个记录代表一个事务。
包含一个唯一的事务标识号，以及一个组成事务的项。
例如商场的第50条交易记录，用户购买了A，D，F这三件物品。
其他类型的数据
空间数据，超文本和多媒体数据……等等
可以挖掘什么类型的模式
描述性（刻画目标数据中数据的一般性质）
预测性（在当前数据上做出归纳，以便进行预测）
类/概念描述：特征化与区分
数据特征化：目标类数据的一般特性或特征的汇总
数据区分：将目标类，与一个或多个可比较类进行比较。
例如：定期购买电脑产品的客户和不购买电脑产品的客户进行比较。

挖掘频繁模式、关联和相关性
频繁模式：在数据中频繁出现的模式。

频繁项集：频繁在事务数据集中一起出现（顾客在小卖部总是一起买牛奶和面包）
频繁子序列：顾客先买数码相机，再买内存卡。
频繁子结构
关联分析（例如分析，哪些商品总是一起被购买）

“computer”=>“software”[1% , 50%] 表示所有事务的1%显示计算机和软件被同时购买。购买了计算机的人，有50%的可能性会选择购买软件。
相关性（相关联的属性-值对之间的统计相关性）

用于预测分析的分类和回归

分类：找出描述和区分数据类或概念的模型（或函数），预测类别标号。
回归：建立连续值函数模型，预测缺失的或难以获得的数值数据值。
相关分析可能需要在分类和回归之前进行，它试图识别与分类和回归过程显著相关的属性。

聚类分析
聚类分析：分析数据对象，而不考虑类标号。可以使用聚类产生数据组群的类标号。
—>“最大化类内相似性，最小化类间相似性”

离群点分析
异常挖掘。有时看做噪声而丢弃，但是在比如欺诈检测等应用中，罕见事件的出现，更令人感兴趣。

所有模式都是有趣的吗？

易于被人理解
在某种确信度上，对于新的或检验数据是有效的
潜在有用的
新颖的
客观度量：支持度，置信度。

使用什么技术

统计学：例如建立分类或预测模型之后，统计假设检验来验证模型
机器学习：监督学习（基本上是分类的同义词），无监督学习（本质上是聚类的同义词），半监督学习，主动学习
信息检索：搜索文档或文档中信息的科学
面向什么类型的应用
商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆……

数据挖掘的主要问题
挖掘方法
新的知识类型、多维空间中的知识、跨学科、网络环境下的挖掘能力、模式评估
用户交互
结合背景知识
表示和可视化，使知识更容易理解
有效性与可伸缩性
处理多种多样的数据类型
动态的、复杂的。
数据挖掘与社会
保护隐私
社会影响

作者：都尼都尼
来源：CSDN
原文：https://blog.csdn.net/echody/article/details/53301756
版权声明：本文为博主原创文章，转载请附上博文链接！

站内首发文章

lynchyueliu

发布了24 篇原创文章 · 获赞 0 · 访问量 4333

私信关注

《数据挖掘概念与技术》读书笔记

猜你喜欢