慕课笔记-数据科学导论-第六章数据挖掘-数据挖掘流程/技术/典型数据挖掘系统/对象/价值/定义/关联分析/Apriori/FP-growth/分类分析/决策树/最近邻/聚类分析

数据挖掘

(1)数据挖掘的概念

定义

  • 数据挖掘(Data Mining,DM)又被称为数据库中的知识发现(Knowledge Discovery from DataBase,KDD),是指从大量数据中提取隐含的、先前未知的、有价值的知识和规则。
  • 它是人工智能和数据库发展相结合的产物,是国际上数据库和信息决策系统较前沿的研究方向之一。

流程

  • 在这里插入图片描述
  • (1)数据清洗(Data Cleaning)即对采集到的数据做预处理,清除无效数据及与目标无关的数据。
  • (2)数据集成(Data Integration)即将来自多个数据源的数据集中在一起。
  • (3)数据转换(Data Transformation)即将数据转换为易于挖掘和分析的格式进行存储。
  • (4)数据挖掘(Data Mining)即利用有效的算法和工具挖掘出潜在的知识和规则。
  • (5)模式评估(Pattern Evaluation)即根据一定的评估标准从挖掘出的结果中筛选出满足条件的知识。
  • (6)知识表示(Knowledge Presentation)即利用可视化的方式展示所挖掘出的知识。

典型数据挖掘系统

  • 在这里插入图片描述
  • (1)数据库、数据仓库即数据挖掘对象,可以有一个或多个。一般需要对采集到的数据进行数据清洗与集成操作,这是一个数据预处理过程。
  • (2)数据库或数据仓库服务器负责根据用户的数据挖掘请求,读取相关数据。
  • (3)知识库存放数据挖掘的领域知识,用于指导数据挖掘的分析过程,或者用于协助评估挖掘结果。例如,用户定义的阈值就是一个最简单的领域知识。
  • (4)数据挖掘引擎包含一组挖掘功能模块,如关联分析、分类分析、聚类分析等。数据挖掘引擎是数据挖掘系统中至关重要的一个组件。
  • (5)模式评估即根据所定制的挖掘目标,与数据挖掘相结合,从数据挖掘的结果中获取有用的信息。数据挖掘选用的挖掘算法影响着二者的耦合程度,数据挖掘算法与模式评估的耦合度越强,其挖掘效率就越高。
  • (6)可视化用户接口提供用户与数据挖掘系统之间的交互界面,用户可通过可视化接口提交挖掘需求或任务给数据挖掘系统,数据挖掘系统向用户展示数据挖掘结果。

数据挖掘 应用到的技术

  • 作为一个应用驱动的领域,数据挖掘有机结合了多学科技术,其中包括高性能计算、机器学习、数据库、统计学、可视化等许多应用领域的大量技术
  • 在这里插入图片描述

(2)数据挖掘的对象和价值

数据挖掘的对象

  • 原则上,数据挖掘可以基于任何类型的信息存储数据进行挖掘

  • 1.关系型数据库

    • 关系型数据库是表的集合,每个表有唯一的名字和一组属性,并可存放大量的记录。
    • 关系型数据库是数据挖掘最流行、最丰富的数据源,是数据挖掘研究的主要对象。
  • 2.数据仓库

    • 某公司在世界各地都有自己的数据库。现在要求汇总第二季度每个分公司的销售情况。这就需要一个数据仓库,从各个分公司收集数据,通过一致的模式进行存储。

    • 数据仓库通过数据清洗、数据集成、数据变换、数据装入并定期对数据刷新。

    • 数据仓库一般用多维数据库结构建模,每个维度对应一组属性。数据集市是数据仓库的一个子集。

    • 数据仓库示例

      • 在这里插入图片描述
  • 3.面向对象数据库

    • 面向对象数据库是基于面向对象程序设计的,其将一个实体看作一个对象,一个对象的相关属性和行为都被封装在一个单元中。
    • 对具有公共特性的对象可以归入一个类。每个对象都是这个类的一个实例。类可以生成子类,子类可以继承父类的公共特性,又可以有自身的特性。
  • 数据挖掘的数据类型

    • 在这里插入图片描述

数据挖掘的价值

  • 1.技术价值-“交易门”

    • 数据挖掘与数学、统计学、计算机学、算法等基本理论知识无法分割。
    • 数据挖掘技术水平的突飞猛进也给基础学科领域带来最直接的跃进。数据挖掘不仅创造了新的计算方式、技术处理方式,更为其他技术的研发、应用和落地提供基础,如人工智能等。
    • “交易门”即客户与企业之间的交易数据,是一种“事后”数据。“交易门”数据是企业的核心数据,是与客户沟通、获得有效分析数据的重要数据来源,无论大数据采集技术如何发展,直接的交易数据永远都是第一有效和最值得关注的。
  • 2.商业价值-“交互门”

    • 数据挖掘能帮助解决许多典型的商业问题,其中包括数据库营销、客户群体划分,背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用评估、欺诈发现等。
    • 数据挖掘让业务更高效、更精准、更低成本、更有据可依、更便于优化、更利于长远发展,可带来不可估量的实际商业价值。
    • “交互门”是企业与客户的交互数据,如用户浏览App或网页的痕迹等,这些数据本身代表的是客户的行为、兴趣、习惯。
  • 3.行业价值-“公开市场门”

    • “公开市场门”即客户在一个开放市场中的各种行为数据,大部分其实不直接与特定企业(行业)相关,但它能在很大程度上引导企业各种业务的开展方向,为整个行业的走向提供社会趋向指导。
  • 4.社会价值

    • 大数据为人的生活带来的不仅是便利,还有紧密的生活服务网络。

(3)数据挖掘常用的技术

数据挖掘中常见的定义

  • 在这里插入图片描述
  • (1)事务:一条交易被称为一个事务,如每位顾客一次购买的商品集合t1~t7。
  • (2)项:交易的每一个物品被称为一个项,如鸡肉、牛肉。
  • (3)项集:包含零个或多个项的集合被称为项集,如{牛肉,鸡肉,衣服} 。
  • (4)k-项集:包含k个项的项集被称为k-项集,如{牛肉}叫作1-项集,{牛肉,鸡肉}叫作2-项集。
  • (5)支持度计数:一个项集出现在多少个事务中,它的支持度计数就是多少。例如,{牛肉}出现在t1、t2、t4、t5这4个事务中,那么它的支持度计数为4。
  • (6)支持度:支持度为支持度计数除以总的事务数。例如:以上总的事务数为7,{牛肉}的支持度计数为4,那么,{牛肉}的支持度是4/7,说明4/7的人购买牛肉。
  • (7)频繁项集:支持度大于或等于某个阈值的项集即为频繁项集。例如:设置阈值为50%时,{牛肉}的支持度为4/7=57%>50%,那么,{牛肉}是频繁项集。
  • (8)前件、后件:于规则“{牛肉} ->{鸡肉}”,{牛肉}是前件,{鸡肉}是后件。
  • (9)置信度:对规则“{牛肉} ->{鸡肉}”,{牛肉,鸡肉}的支持度计数除以{牛肉}的支持度计数,即为这个规则的置信度。{牛肉,鸡肉}的支持度计数为3,{牛肉}的支持度计数为4,那么,置信度为3/4。
  • (10)强关联规则:大于或等于最小支持度阈值和最小置信度阈值的规则被称为强关联规则。

关联分析((Association Analysis))

  • 简介

    • 发现大量数据中隐藏的关联性和相关性,进而描述出一个事物中某些属性同时出现的规律和模式,这些规律和模式即关联规则。
    • 可以看做是统计学上的概率问题"客户执行A动作后执行B动作的可能性"
    • 关联分析的最终目标就是要找出强关联规则。
    • 支持度和置信度只是两个参考值而已,并不是绝对的
  • 经典算法

    • 算法

      • 基本思想

        • 寻找最大项集
      • 步骤

        • 第一步,简单统计所有含一个元素项集出现的频率,并找出那些不小于最小支持度的项集,即一维最大项集。
        • 从第二步开始,循环处理,直到再没有最大项集生成。循环过程:第k步中,根据第k−1步生成的k−1维最大项集产生k维候选项集,然后对数据库进行搜索,得到候选项集的项集支持度,与最小支持度比较,从而找到k维最大项集。
      • 技术难点

        • (1)如何确定候选频繁项集和计算项集的支持数。
        • (2)如何减少候选频繁项集的个数及扫描数据库的次数。
    • FP-growth算法

      • 简介

        • 针对Apriori算法的缺陷,Jiawei Han提出FP-growth算法。该算法仅需扫描数据库两次且无须生成候选项集,避免了产生“知识的组合爆炸”
        • FP-growth 算法将长频繁模式转换成一些较短频繁模式,然后连接后缀。
      • 步骤

        • 首先构造FP树,然后利用它来挖掘频繁项集。在构造FP树时,需要对数据集扫描两边,第一遍扫描用来统计频率,第二遍扫描至考虑频繁项集。
        • 然后,把这种压缩的数据库划分成一组条件数据库(一种特殊类型的投影数据库),每个数据库关联一个频繁项或“模式段”,并分别挖掘每个条件数据库。对每个“模式片段”,只需要考察与它相关联的数据集。
        • 随着被考察模式的“增长”,这种方法可以显著地压缩被搜索的数据集的大小。

分类分析

  • 简介

    • 分类分析是数据挖掘中预测建模的一种任务,用于预测离散的目标变量,相对的回归用于预测连续的目标变量。
    • 比较科学的分类定义:分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。
  • 经典算法

    • 决策树方法

      • 简介

        • 决策树(Decision Tree)方法是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法。
        • 决策树方法是直观运用概率分析的一种图解法。
        • 决策树方法是一种十分常用的分类方法。它是一种监管学习,所谓监管学习,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的。系统通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称为监督学习。
      • 优点

        • 1.易于理解和实现
        • 2.计算量相对较小
        • 3.可以处理连续和种类字段
        • 4.决策树可以清晰显示哪些字段比较重要
      • 缺点

        • ① 对连续性的字段比较难预测。
        • ② 对有时间顺序的数据,需要很多预处理的工作。
        • ③ 当类别太多时,错误可能会增加得比较快。
        • ④ 一般来说,算法分类的时候,只是根据一个字段来分类。
    • 最近邻分类器

      • 工作原理

        • 存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
        • 在这里插入图片描述
    • 贝叶斯分类器

      • 简介

        • 贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。它的设计方法是一种最基本的统计分类方法。

        • 其分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

          • 先验概率:先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。
          • 后验概率:后验概率的计算要以先验概率为基础。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来
        • 根据对特征值间不同关联程度的假设,可以得到各种贝叶斯分类器。Naive Bayes、TAN、BAN、GBN 就是其中较典型、研究较深入的贝叶斯分类器。

      • 步骤

        • 第一阶段是贝叶斯分类器的学习阶段,即从样本数据中构造分类器,包括结构学习和CPT 学习;
        • 第二阶段是贝叶斯分类器的推理阶段,即计算类节点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是NP 完全问题,因而在实际应用中,往往需要对贝叶斯分类器进行简化。

聚类分析

  • 简介

    • 将一群物理对象或者抽象对象划分成相似的对象类的过程就是聚类分析。
    • 类簇是数据对象的集合。在类簇中,所有的对象都彼此相似,而类簇与类簇之间的对象是彼此相异的。
    • 聚类分析除了可以用于数据分割(data segmentation),也可以用于离群点检测(outlier detection,与“普通”点相对应的“异常”点)。
  • 经典算法

    • K-means算法

      • 流程

        • 首先从聚类分析对象中随机选出K个对象作为类簇的质心(当然,初始参数的K代表聚类分析结果的类簇数),对剩余的每个对象,根据它们分别到K个质心的距离,将它们指定到最相似的簇(因为K-means是利用距离来量化相似度的,所以我们这里可以理解为“将它们指定到离最近距离的质心所属类簇”)
        • 然后重新计算质心位置。以上过程不断反复,直到准则函数收敛为止。通常采用平方误差准则
      • 缺点

        • (1)必须事先给点簇数和质点,且这两者的设定对结果影响较大
        • (2)通常在获得一个局部最优值时停止。
        • (3)只适合数值型数
        • (4)只适用于聚类分析结果为凸形的数据集,不适合发现非凸面形状的类簇或者大小差别很大的簇。
        • (5)对“噪声”和孤立点数据敏感,少量该类数据会对质点的计算产生极大的影响。
    • K-medoids算法

      • 简介

        • K-medoids算法提出了新的质点选取方式,在K-medoids算法中,每次迭代后的质点都从聚类分析的样本点中选取,而选取的标准就是该样本点成为新的质点后能提高类簇的聚类分析质量,使类簇更紧凑。该算法使用绝对误差标准来定义一个类簇的紧凑程度。
    • 层次聚类分析算法

      • 简介

        • 层次聚类分析算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程,这两种方式分别被称为凝聚和分裂。
        • 凝聚层次算法:初始阶段将每个样本点分别当作其类簇,然后合并这些原子类簇,直至达到预期的类簇数或者其他终止条件。
        • 分裂层次算法:初始阶段将所有的样本点当作同一类簇,然后分裂这个大类簇,直至达到预期的类簇数或者其他终止条件。
      • 在这里插入图片描述

(4)数据挖掘常用的工具

RapidMiner

  • RapidMiner支持拖曳建模,自带1500多个函数,无须编程,简单易用,同时也支持各常见语言代码编写,以符合程序员个人习惯和实现更多功能。
  • RapidMinerStudio社区版和基础版免费开源,能连接开源数据库,商业版能连接大多数数据源,功能更强大。
  • 拥有丰富的扩展程序,如文本处理、网络挖掘、WEKA扩展、R语言等。
  • RapidMiner具有丰富的数据分析、挖掘和算法功能,常用于解决各种商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修、质量管理、社交媒体监测和情感分析等。

WEKA

  • WEKA(Waikato Environment for Knowledge Analysis)是一款免费的、非商业化的、在Java环境下开源的机器学习(Machine Learning)及数据挖掘软件。
  • WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一。
  • WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则及在新的交互式界面上的可视化。
  • WEKA项目旨在为研究人员和从业者的学习提供一个全面收集机器算法和数据预处理的工具。WEKA软件允许用户快速尝试,并在新的数据集上比较不同的机器学习方法。它的模块是建立在广泛的基础学习算法和工具上的集合,可扩展的架构允许复杂的数据挖掘过程。

Orange

  • Orange是一个基于组件的数据挖掘和机器学习软件套装,它的功能强大,有快速而又多功能的可视化编程前端,便于用户浏览数据分析结果和可视化,同时它绑定了Python,以便用户进行脚本开发。
  • 它包含了完整的一系列的组件以进行数据预处理,并提供了数据账目、过渡、建模、模式评估和勘探的功能。Orange基于C++和Python开发,其图形库由跨平台的Qt框架开发。
  • Orange使用一种专有的数据结构,扩展名为.tab,其实就是用tab分割每个数据的纯文本。Orange也可以读取其他格式的数据文件,如CSV、TXT等。
  • Orange是类似WEKA的数据挖掘工具,它的图形环境被称为Orange画布(Orange Canvas)。用户可以在画布上放置分析控件,然后把控件连接起来组成挖掘流程。

R语言

  • 简介

    • R是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此被称为R),现在由“R开发核心团队”负责开发。
    • R语言是集数据分析与图形显示于一体的编程语言,是一种专业的统计分析软件。
    • R从根本上摒弃了套用模式的傻瓜式数据分析方式,它将数据分析的主动权和选择权交给使用者。数据分析人员可以根据问题的背景和数据的特点,更好地思考从数据出发如何选择和组合不同的方法,并将每一层输出反馈到对问题和数据处理的新思考上。R为专业分析提供了分析的弹性、灵活性和扩展性,是利用数据回答问题的最佳平台。
  • 特点

    • 1.R是自由软件
    • 2.R的兼容性很好
    • 3.R是数据可视化的先驱
    • 4.R不断更新加载包

Mining

  • Mining大数据挖掘平台是一款基于组件的数据挖掘、机器学习和数据分析的工具。

  • 它包括一系列可视化、探索、预处理和建模组件。除了提供Python模块外,Mining大数据挖掘平台还提供了图形用户界面(Graphical User Interface,GUI),用户可以用预先定义好的多种模块组成工作流来完成复杂的数据挖掘工作。

  • 在使用过程中,用户不需要像使用其他数据挖掘工具那样进行复杂的参数设置,只要进行一些必要的参数优化即可。Mining大数据挖掘平台使用户再也不用自己编写复杂的算法,也不需要掌握太高深的数据流程的理论知识。用户所需要了解的只是算法的大概原理、算法实际应用环境。

  • 平台优势

    • 1.可视编程
    • 2.交互式可视化
    • 3.可用于数据科学教育
  • 在这里插入图片描述

(5)数据挖掘的典型应用

社交媒体领域的应用

市场营销领域的应用

科学研究领域的应用

电信领域的应用

教育领域的应用

医学领域的应用

  • 医学图像挖掘
  • DNA分析
  • 公众健康监控
  • 临床决策支持系统

XMind: ZEN - Trial Version

发布了12 篇原创文章 · 获赞 3 · 访问量 766

猜你喜欢

转载自blog.csdn.net/weixin_45761327/article/details/104664305
今日推荐