《数据挖掘导论》学习笔记（01）绪论

引入

对于数据量太大的数据，无法使用传统的数据分析工具盒技术处理他们；有些数据集相对娇小，但是由于数据本身具有一些非传统特点，也不能使用传统的方法处理。

数据挖掘是一种技术，他将传统的数据分析方法与处理大量数据的复杂算法相结合，为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会。

应用场景：商务，医学、科学与工程。

数据挖掘≠信息检索，但会被用来增强信息检索系统的能力。

信息检索：主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构，从而有效地组织和检索信息。

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。

数据挖掘与知识发现

数据挖掘是数据库中知识发现（KDD）不可缺少的一部分，而KDD是将未加工的数据转换为有用信息的整个过程。

算法的可伸缩

数据的高维性

异种数据和复杂数据

数据的所有权与分布：分布式数据挖掘算法

非传统的分析

数据挖掘利用了来自以下领域的思想：

来自统计学的抽样、估计和假设检验

人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论

最优化、进化计算、信息论、信号处理、可视化和信息检索

a 预测任务

b 描述任务

预测建模 （predicative modeling）涉及以说明变量函数的方式为目标变量建立模型。分类用于预测离散的目标变量，回归用于预测连续的目标变量。
关联分析（association analysis）指用来发现描述数据中强关联特征的模式或者算法。比如经典啤酒和尿布问题。
聚类分析（cluster analysis）旨在发现紧密相关的观测值组群。这个跟机器学习中无监督学习聚类是一个概念，简单的来说就是找出具有相似特征的点簇。
异常检测（anomaly detection）识别其特征显著不同于其他数据的观测值，这些观测值成为异常点（anomaly）或离群点（outlier）。

dujiahei

发布了79 篇原创文章 · 获赞 119 · 访问量 53万+