《数据挖掘概念与技术》读书笔记

转载自数据挖掘概念与技术——读书笔记(1)

第一章 引论
为什么进行数据挖掘
解决“数据丰富,但信息贫乏”的问题。
数据的爆炸式增长,广泛可用,巨大数量 ——> 数据时代 ——> 需要功能强大和通用的工具,从海量数据中发现有价值的信息。

什么是数据挖掘
从数据中挖掘知识。

数据清理(消除噪声和删除不一致的数据)
数据集成(多种数据源可以组合在一起)
数据选择(从数据库中提取与分析任务相关的数据)
数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
数据挖掘(基本步骤,使用智能方法提取数据模式)
模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的数据)
知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

可以挖掘什么类型的数据
数据库数据
由一组内部相关的数据和一组管理和存取数据的软件程序组成。
关系数据库是表的汇集(属性—>字段或列,元祖—>记录或行)。对象被唯一关键字标识,被一组属性值描述。
数据仓库
从多个数据源收集的信息储存库(例如分部遍布全世界的公司的数据库)

事务数据
每个记录代表一个事务。
包含一个唯一的事务标识号,以及一个组成事务的项。
例如商场的第50条交易记录,用户购买了A,D,F这三件物品。
其他类型的数据
空间数据,超文本和多媒体数据……等等
可以挖掘什么类型的模式
描述性(刻画目标数据中数据的一般性质)
预测性(在当前数据上做出归纳,以便进行预测)
类/概念描述:特征化与区分
数据特征化:目标类数据的一般特性或特征的汇总
数据区分:将目标类,与一个或多个可比较类进行比较。
例如:定期购买电脑产品的客户和不购买电脑产品的客户进行比较。

挖掘频繁模式、关联和相关性
频繁模式:在数据中频繁出现的模式。

频繁项集:频繁在事务数据集中一起出现(顾客在小卖部总是一起买牛奶和面包)
频繁子序列:顾客先买数码相机,再买内存卡。
频繁子结构
关联分析(例如分析,哪些商品总是一起被购买)

“computer”=>“software”[1% , 50%] 表示所有事务的1%显示计算机和软件被同时购买。购买了计算机的人,有50%的可能性会选择购买软件。
相关性(相关联的属性-值对之间的统计相关性)

用于预测分析的分类和回归

分类:找出描述和区分数据类或概念的模型(或函数),预测类别标号。
回归:建立连续值函数模型,预测缺失的或难以获得的数值数据值。
相关分析可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。

聚类分析
聚类分析:分析数据对象,而不考虑类标号。可以使用聚类产生数据组群的类标号。
—>“最大化类内相似性,最小化类间相似性”

离群点分析
异常挖掘。有时看做噪声而丢弃,但是在比如欺诈检测等应用中,罕见事件的出现,更令人感兴趣。

所有模式都是有趣的吗?

易于被人理解
在某种确信度上,对于新的或检验数据是有效的
潜在有用的
新颖的
客观度量:支持度,置信度。

使用什么技术

统计学:例如建立分类或预测模型之后,统计假设检验来验证模型
机器学习:监督学习(基本上是分类的同义词),无监督学习(本质上是聚类的同义词),半监督学习,主动学习
信息检索:搜索文档或文档中信息的科学
面向什么类型的应用
商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆……

数据挖掘的主要问题
挖掘方法
新的知识类型、多维空间中的知识、跨学科、网络环境下的挖掘能力、模式评估
用户交互
结合背景知识
表示和可视化,使知识更容易理解
有效性与可伸缩性
处理多种多样的数据类型
动态的、复杂的。
数据挖掘与社会
保护隐私
社会影响

作者:都尼都尼
来源:CSDN
原文:https://blog.csdn.net/echody/article/details/53301756
版权声明:本文为博主原创文章,转载请附上博文链接!

发布了24 篇原创文章 · 获赞 0 · 访问量 4333

猜你喜欢

转载自blog.csdn.net/lynchyueliu/article/details/104361863