2020年了,还不懂数据挖掘?数据挖掘工具有哪些?

一. 数据挖掘定义

  • 数据挖掘:严格的科学定义上,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。
  • 从技术角度分析,数据挖掘就是利用一系列的相关算法和技术,从大数据中提取出行业或公司所需要的、有实际应用价值的知识的过程。这些有价值的潜在知识与信息就隐藏在大数据中,之前并不被人所知,所提取到的知识表示形式可以是概念、规律、规则与模式等。
  • 与数据挖掘相似的概念也就是知识发现,用数据库管理系统来存储数据、用机器学习方法来分析数据、挖掘大量数据背后隐藏的知识的过程,称为数据库中的知识发现。
  • 准确地说,数据挖掘是整个知识发现流程中的一个具体步骤,也是知识发现过程中最重要的核心步骤。值得注意的是,数据挖掘是一个多学科交叉领域,涉及数据库技术、人工智能、高性能计算、机器学习、模式识别、知识库工程、神经网络、数理统计、信息检索、信息的可视化等众多领域
  • 在分析原理与方法上,数据挖掘和统计学之间并不存在明显的界限,数据挖掘技术的Cart、 Chaid 或模糊计算等理论方法,也都是由统计学者根据统计理论发展衍生而来;或者说,在相当大的比重上,数据挖掘由高等统计学中的数理分析理论支撑。

二. 数据挖掘特征

  • 与传统统计分析相比,数据挖掘有下列几项特征:
  • ①处理大数据的能力更强,且无须太专业的统计背最就可以使用数据挖掘工具;②从使用与需求的角度上看,数据挖掘工具更符合企业界的需求;③从理论的基础点来解析,数据挖掘和统计分析有应用上的差别,数据挖掘的最终目的是方便企业终端用户使用,而并非给统计学家检测用的。

三. 数据挖掘工具

  • 根据适用的范围,数据挖掘工具分为两类:专用挖掘工具和通用挖掘工具。
  • 专用数据挖掘工具:
  • 专用挖掘工具针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑数据、需求的特殊性。对任何应用领域,专业的统计研发人员都可以开发特定的数据挖掘工具。特定领域的数据挖掘工具针对性通常比较强,但通常只能用于一种应用场景,也正因为针对性较强,数据挖掘过程中往往采用特殊的算法去处理特殊类型的数据,发现的知识可靠度一般也比较高。
  • 通用数据挖掘工具:
  • 专用挖掘工具不区分具体数据的含义,往往采用通用的挖掘算法处理常见的数据类型。通用的数据挖掘工具可以做多种模式的挖掘,至于挖掘的内容与挖掘工具都可以由用户自己来选择。就国内外日前数据挖掘的总体状况而言,数据挖掘过程中,常使用的语言有R语言、Python 语言等,其中R语言是用于统计分析和图形化的让算机语言及分析工具。

数据挖掘中的挖掘工具具体如下:

1. Weka

  • Weka的全称是Waikato智能分析环境,是一款免费与非商业化的数据挖掘软件,它是基于Java 环境下开源的机器学习与数据挖掘软件,Weka 的源代码可在其官方网站下载。Weka可能是名气最大的开源机器学习和数据挖掘软件,界面简洁。Weka 作为一个公开的数据挖掘工作平台,集成大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则,以及交互式界面上的可视化。

2. SPSS

  • SPSS是世界上最早的统计分析软件,是世界上最早采用图形菜单驱动界面的数据统计软件,突出的特点是操作界面友好,且输出结果美观。 SPSS将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能。分析人员只要掌握必要的Windows 操作技能与统计分析原理,就可以使用SPSS软件为特定的工作服务。SPSS 采用类似Excel表格的方式输入与管理数据,数据接口较为通用,能方便地从其他数据库中读入数据。SPSS统计过程包括常用的、较为成熟的流程,完全可以满足非统计专业人士的工作需要。SPSS 输出结果美观,存储时则是专用的SPO格式,可以转存为HTML与文本格式。SPSS具有完整的数据输入、统计分析、报表、编辑、图形制作等功能,提供从简单的统计描述到复杂的多因素统计分析方法,例如,数据的探索性分析、统计描述、聚类分析、非线性回归、列联表分析、非参数检验、多元回归、二维相关、秩相关、偏相关、方差分析、生存分析、协方差分析、判别分析、因子分析、Logistic 回归等。

3. Clementine

  • Clementine是SPSS公司开发的商业数据挖掘产品,为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异的数据,相异的任务类型和数据类型要求有不同的分析技术。Clementine 提供出色、广泛的数据挖掘技术,确保用恰当的分析技术来处理相应的商业问题,得到最优的结果以应对随时出现的问题。即便改进业务的机会被庞杂的数据表格所掩盖,Clementine 也能最大限度地执行标准的数据挖掘流程,较好地找到解决商业问题的最佳答案。

4. RapidMiner

  • RapidMiner现在流行的势头在上升,2015 年在KDnuggets举办的第16届国际数据挖掘暨分析软件投票中RapidMiner位居第2,地位仅次于R语言。RapidMiner 的操作方式和商用软件差别较大,RapidMiner 并不支持分析流程图方式,当包含的运算符比较多时就不容易查看::RapidMiner具有丰富的数据挖掘分析和算法功能,常用于解决各种商业关键问题,例如,营销响应率、客户细分、资产维护、资源规划、客户忠诚度及终身价值、质量管理、社交媒体监测和情感分析等典型商业案例。RapidMiner 提供的解决方案覆盖许多领域,包括生命科学、制造业、石油和天然气、保险、汽车、银行、零售业、通信业及公用事业等。

5. 其他数据挖掘软件

  • 近年来,流行的数据挖掘软件还包括Orange、Knime、 Keel 与Tanagra等,Orange界面简洁但目前不支持中文;Knime则可以同时安装Weka 和R扩展包; Keel 是基于Java的机器学习工具,为一系列大数据任务提供了算法;Tanagra 是使用图形界面的数据挖掘软件。由于国内外开源与商业数据挖掘的软件或平台众多,在此不一一列举。

猜你喜欢

转载自blog.csdn.net/qq_38132105/article/details/107073826