《IBM SPSS Modeler数据与文本挖掘实战》之常用数据挖掘软件

根据数据挖掘软件的开发目的和用途,一般可以分为专业型和通用型两种。专业型数据挖掘软件一般是针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模、类型以及研究者的需求等特点,并作了优化;而通用型数据挖掘软件不区分具体数据的含义,能处理常见的数据类型,具有较为广泛的使用范围,其所包含的数据挖掘方法也较为全面,而且通用型数据挖掘软件还具有良好的数据库管理能力以及其他常规的统计分析方法。

要做数据挖掘,当然需要工具。但若靠传统的自我编程来实现,未免有些费时费力,而且其性能也不一定比商业工具强大和稳定。目前,世界上已经有很多商业公司和研究机构开发出了各自的数据挖掘产品,而且功能和使用简易性也在日益提高。例如:SAS公司的Enterprise Miner以及IBM公司的Intelligent Miner等。

一般而言,目前市场上这些数据挖掘工具又可分成两类:小型工具以及企业型工具。

  1. 小型数据挖掘工具:它与企业型工具的着眼点不同。小型数据挖掘工具或者是针对低端、低消费的用户,或者是为解决特定的应用问题提供特定的解决方案。例如,Oracle公司的Darwin,Insightful公司的Insightful Miner等。
  2. 企业型数据挖掘工具:应用在需要高处理能力、高网络容量和大数据量的场合下。这些工具通常支持多种平台,并基于客户机/服务器结构。它通常可以直接连接一些复杂的数据管理系统,并能处理大量的数据。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问题。企业数据挖掘工具的实例有IBM的Intelligent Miner和SPSS Modeler,以及SAS公司的SAS Enterprise Miner等。

1.3.1  SAS EM

SAS系统的全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编写,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能仅限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户超过三百万人,遍及金融、医药卫生、生产、运输、通信、政府和教育科研等领域。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在1996~1997年度被评选为建立数据库的首选产品,堪称统计软件界的“巨无霸”。

SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理着用户的使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。SAS系统具有灵活的功能扩展接口和强大的功能模块,在BASE SAS的基础上,还可以通过增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS/FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等。SAS有一个智能型绘图系统,不仅能绘制各种统计图,还能绘出地图。SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。

SAS是由大型机系统发展而来,其核心操作方式就是程序驱动,经过多年的发展,现在已成为一套完整的计算机语言,其用户界面也充分体现了这一特点:它采用MDI(多文档界面),用户在PGM视窗中输入程序,分析结果以文本的形式在OUTPUT视窗中输出。使用程序方式,用户可以完成所有需要做的工作,包括统计分析、预测、建模和模拟抽样等。但是,这使得初学者在使用SAS时必须学习SAS语言,入门比较困难。SASWindows版本根据不同的用户群开发了几种图形操作界面,这些图形操作界面各有特点,使用时非常方便。

SAS Enterprise Miner是一种通用的数据挖掘工具,按照“抽样-探索-转换-建模-评估”的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成,实现从提出数据、抓住数据到得到解答的“端到端”知识发现。

1.3.2  SPSS Modeler

SPSS Modeler是企业级的数据挖掘工作平台。Modeler封装了最先进的统计学和数据挖掘技术来获得预测知识,并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。

SPSS Modeler强大的数据挖掘功能将复杂的统计方法和机器学习技术应用到数据当中,帮助客户揭示了隐藏在企业资源计划(ERP)、结构数据库、普通文件中的模式和趋势,让客户始终站在行业发展的前端,显著的投资回报率使得SPSS Modeler在业界久负盛誉。

作为一个数据挖掘平台,Modeler结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其他数据挖掘工具相比,Modeler功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。

为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异的数据,相异的任务类型和数据类型就要求有不同的分析技术。Modeler可以提供最出色、最广泛的数据挖掘技术,确保用户可用最恰当的分析技术来处理相应的问题,从而得到最优的结果以应对随时出现的商业问题。即便改进业务的机会被庞杂的数据表格所掩盖,Modeler也能最大限度地执行标准的数据挖掘流程,为用户找到解决商业问题的最佳答案。

作为易操作的、拥有高级建模技术的数据挖掘软件,SPSS Modeler能够帮助用户发现和预测数据中有用的关系。Modeler提供了通向数据、统计量和复杂算法这一抽象世界的可视化窗口。每个步骤都由一个图标(即节点)表示,将各个步骤连接即可形成一个流,表示数据沿各个步骤流动。图形化的操作环境简单明了,提高了软件的易用性,降低了使用者的入门要求,同时也大大缩短了学习时间。

SPSS Modeler是一个开放式的数据挖掘工具,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准——CRISP-DMModeler的可视化数据挖掘使得“思路”分析成为可能,即将精力集中在要解决的问题本身,而不是局限于完成一些技术性工作(例如编写代码)。提供了多种图形化技术,有助于理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。

1.3.3  Intelligent Miner

由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括Intelligent Miner for DataIntelligent Miner for Text

  1. Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等。
  2. Intelligent Miner for Text允许企业从文本信息中进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等。

IBM Intelligent Miner通过其世界领先的独有技术,例如,典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。若有必要,还可以对结果数据集重复这一过程,直至得到满意结果为止。现在,IBMIntelligent Miner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具——Intelligent Miner for DataIBM Intelligent Miner for Text,帮助企业选取以前未知的、有效的、可行的业务知识,如客户购买行为、隐藏的关系和新的趋势,数据来源可以是大型数据库、企业内部或Internet上的文本数据源,然后公司可以应用这些信息进行更好、更准确的决策,从而获得竞争优势。

Intelligent Miner采用了多种统计方法和挖掘算法,主要有:单变量曲线、双变量统计、线性回归、因子分析、主变量分析、分类、分群、关联、相似序列、序列模式、预测等。它能处理的数据类型有:结构化数据(如:数据库表、数据库视图、平面文件)、半结构化或非结构化数据(如:顾客信件、在线服务、传真、电子邮件、网页等)。

IBM DB2 Intelligent Miner for Text允许企业从文本信息中获取有价值的客户信息。文本数据源可以是Web页面、在线服务、传真、电子邮件、Lotus Notes数据库、协定和专利库。它扩展了IBM的数据采集功能,可以从文本文档和数据源获取信息。其功能包括识别文档语言,建立姓名、用语或其他词汇的词典,提取文本的含义,将类似的文档分组,并根据内容将文档归类。新版本中还包括一个全功能的先进文本搜索引擎和非常高效的Web文本搜索功能。系统支持的服务器平台包括AIX和Windows NT、OS/390和Sun Solaris。

IBM DB2 Intelligent Miner Scoring使实时数据挖掘分析成为可能。它可以在交易发生时,不管是在商业智能、电子商务,还是联机处理领域的应用,直接对交易进行挖掘。作为DB2通用数据库的一个组件,它还可以使企业依据既定的标准对自己的客户进行归类。IBM DB2 Intelligent Miner Scoring Service直接将数据挖掘技术集成为相关的数据库管理系统,满足了应用程序开发、配置的快速增长,使应用程序速度更快。

Intelligent Miner的不足之处是连接DB2以外的数据库时,如Oracle、SAS、SPSS需要安装DataJoiner作为中间软件。

详细内容请参考《IBM SPSS Modeler数据与文本挖掘实战》中的相关章节的内容。

发布了32 篇原创文章 · 获赞 13 · 访问量 5万+

猜你喜欢

转载自blog.csdn.net/shanghaiwren/article/details/104160505