数据中的知识发现KDD和机器学习概念

数据中的知识发现的过程

(1)数据清洗:消除噪声和删除不一致的数据。
(2)数据集成:多种数据源可以组合在一起
(3)数据选择:从数据库中提取与分析任务相关的数据
(4)数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式
(5)数据挖掘:基本步骤,使用智能方法提取数据模式。
(6)模式评估:根据某总兴趣度度量,识别代表知识的真正有趣模式
(7)知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。

数据挖掘中的有趣模式(挖掘到知识)的特征。

(1)易于被人理解。
(2)在某种确信度上,对于新的检验数据是有效的。
(3)是潜在有用的。
(4)是新颖的。

模式兴趣度的客观度量

(1)X =>Y的的关联规则,一种客观度量基于是规则的支持度(support)。规则的支持度表示事物数据库中满足规则的事物所占的百分比。支持度可以取概率P(X U Y),其中X U Y 表示同时包含X和Y的事务. support(X=>Y) = P(X u Y)
(2)关联规则的另一种客观度量是置信度(confidence),他评估所发现的规则的确信程度。置信度可以取条件概P(X I Y) ,即包含X也包含Y的概率 .confidence(X=>Y) = P(Y I X)

机器学习的概念

机器学习考察计算机如何基于数据学习(或提高他们的性能)。其主要应用领域之一是,计算机程序基于数据自动的学习识别复杂的模式,并做出智能的决断。

web搜素引擎的本质是大型数据挖掘应用

(1)爬行:决定应该爬过那些页面和爬行频率。
(2)索引:选择被索引的页面和决定构建索引的范围。
(3)搜素:决定如何排列各个页面,广告投放。

发布了1 篇原创文章 · 获赞 1 · 访问量 65

猜你喜欢

转载自blog.csdn.net/qq_39621784/article/details/104043409