数据挖掘教程:什么是数据挖掘?技术,工艺

什么是数据挖掘?

数据挖掘是从庞大的数据集中寻找潜在有用模式的过程。它是一种多学科技能,使用机器学习,统计学和AI来提取信息以评估未来事件的概率。从数据挖掘中获得的见解用于营销,欺诈检测,科学发现等。

数据挖掘就是要发现数据之间隐藏的、未被怀疑的、以前未知但有效的关系。数据挖掘也称为数据中的知识发现(KDD),知识提取,数据/模式分析,信息收集等。

数据类型

可以对以下类型的数据执行数据挖掘

  • 关系数据库
  • 数据仓库
  • 高级数据库和信息存储库
  • 面向对象和对象关系数据库
  • 事务数据库和空间数据库
  • 异构和旧式数据库
  • 多媒体和流媒体数据库
  • 文本数据库
  • 文本挖掘和网络挖掘

数据挖掘的实施流程

数据挖掘实施过程

让我们详细研究一下数据挖掘实施过程

业务理解:

在此阶段,将建立业务和数据挖掘目标。

  • 首先,您需要了解业务和客户目标。你需要定义你的客户想要什么(很多时候甚至他们自己都不知道)
  • 盘点当前数据挖掘方案。将资源、假设、约束和其他重要因素考虑到评估中。
  • 使用业务目标和当前方案,定义数据挖掘目标。
  • 一个好的数据挖掘计划非常详细,应该制定以实现业务和数据挖掘目标。

数据理解:

在此阶段,将对数据执行健全性检查,以检查其是否适合数据挖掘目标。

  • 首先,从组织中可用的多个数据源收集数据。
  • 这些数据源可能包括多个数据库、平面文件管理器或数据多维数据集。在数据集成过程中可能会出现对象匹配和架构集成等问题。这是一个相当复杂和棘手的过程,因为来自各种来源的数据不太可能容易匹配。例如,表 A 包含一个名为 cust_no 而另一个表 B 包含一个名为 cust-id 的实体。
  • 因此,很难确保这两个给定对象是否引用相同的值。在这里,应使用元数据来减少数据集成过程中的错误。
  • 接下来,步骤是搜索所获取数据的属性。浏览数据的一个好方法是使用查询、报告和可视化工具回答数据挖掘问题(在业务阶段决定)。
  • 根据查询结果,确定数据质量。如果有任何缺失的数据,则应获取。

数据准备:

在此阶段,数据已准备好生产。

数据准备过程消耗了大约 90% 的项目时间。

应选择、清理、转换、格式化、匿名和构造来自不同来源的数据(如果需要)。

数据清理是通过平滑噪声数据和填充缺失值来“清理”数据的过程。

例如,对于客户人口统计资料,缺少年龄数据。数据不完整,应填写。在某些情况下,可能存在数据异常值。例如,age 的值为 300。数据可能不一致。例如,客户的名称在不同的表中是不同的。

数据转换操作更改数据以使其在数据挖掘中有用。可以应用以下转换

数据转换:

数据转换操作将有助于挖掘过程的成功。

平滑:它有助于消除数据中的噪声。

集合体:汇总或聚合操作将应用于数据。即,将每周销售数据汇总以计算每月和每年的总计。

普遍化:在此步骤中,在概念层次结构的帮助下,低级数据被高级概念取代。例如,城市被县取代。

正常化:在属性数据纵向扩展或缩减时执行规范化。示例:数据应在规范化后介于 -2.0 到 2.0 之间。

属性构造:这些属性是构造的,并包含有助于数据挖掘的给定属性集。

此过程的结果是可用于建模的最终数据集。

造型

在此阶段,使用数学模型来确定数据模式。

  • 根据业务目标,应为准备好的数据集选择合适的建模技术。
  • 创建一个方案来测试检查模型的质量和有效性。
  • 在准备好的数据集上运行模型。
  • 所有利益干系人都应评估结果,以确保模型能够满足数据挖掘目标。

评估:

在此阶段,根据业务目标评估所标识的模式。

  • 应根据业务目标评估数据挖掘模型生成的结果。
  • 获得业务理解是一个迭代过程。事实上,在理解的同时,由于数据挖掘,可能会提出新的业务需求。
  • 在部署阶段,将做出“通过”或“不行”决策来移动模型。

部署:

在部署阶段,您可以将数据挖掘发现发布到日常业务运营中。

  • 在数据挖掘过程中发现的知识或信息应易于非技术利益相关者理解。
  • 创建详细的部署计划,用于数据挖掘发现的运输、维护和监视。
  • 创建最终项目报告,其中包含项目期间的经验教训和关键经验。这有助于改进组织的业务策略。

数据挖掘技术

数据挖掘技术

1.分类:

此分析用于检索有关数据和元数据的重要和相关信息。此数据挖掘方法有助于对不同类中的数据进行分类。

2. 聚类:

聚类分析是一种数据挖掘技术,用于识别彼此相似的数据。此过程有助于了解数据之间的差异和相似之处。

3. 回归:

回归分析是识别和分析变量之间关系的数据挖掘方法。它用于在给定其他变量存在的情况下识别特定变量的可能性。

4. 关联规则:

此数据挖掘技术有助于查找两个或多个项之间的关联。它在数据集中发现隐藏的模式。

5.外部检测:

这种类型的数据挖掘技术是指观察数据集中与预期模式或预期行为不匹配的数据项。该技术可用于各种领域,例如入侵,检测,欺诈或故障检测等。外部检测也称为异常值分析或异常值挖掘。

6. 顺序模式:

这种数据挖掘技术有助于发现或识别特定时期内交易数据中的类似模式或趋势。

7. 预测:

预测使用了其他数据挖掘技术的组合,如趋势,顺序模式,聚类,分类等。它以正确的顺序分析过去的事件或实例,以预测未来的事件。

实施数据挖掘的挑战:

  • 需要熟练的专家来制定数据挖掘查询。
  • 过拟合:由于训练数据库规模小,模型可能不适合未来的状态。
  • 数据挖掘需要大型数据库,有时难以管理
  • 可能需要修改业务实践,以确定使用未发现的信息。
  • 如果数据集不多样化,则数据挖掘结果可能不准确。
  • 异构数据库和全球信息系统所需的集成信息可能很复杂

数据挖掘示例:

现在,在此数据挖掘课程中,让我们通过示例了解数据挖掘:

示例 1:

考虑一下电信服务供应商的营销主管,他希望增加长途服务的收入。为了在他的销售和营销工作中获得高投资回报率,客户分析非常重要。他拥有庞大的客户信息数据库,如年龄,性别,收入,信用记录等。但是,通过手动分析无法确定喜欢长途电话的人的特征。使用数据挖掘技术,他可以发现高长途呼叫用户之间的模式及其特征。

例如,他可能会了解到,他最好的客户是年龄在45至54岁之间的已婚女性,她们的年收入超过8万美元。营销工作可以针对此类人群。

示例 2:

一家银行希望寻找新的方法来增加其信用卡业务的收入。他们想检查如果费用减半,使用量是否会翻倍。

银行在平均信用卡余额,付款金额,信用额度使用情况和其他关键参数方面有多年的记录。他们创建一个模型来检查建议的新业务策略的影响。数据结果显示,将目标客户群的费用减半可以增加1000万美元的收入。

数据挖掘工具



以下是工业中广泛使用的2种流行的数据挖掘工具

R 语言:

R语言是用于统计计算和图形的开源工具。R具有各种统计,经典统计测试,时间序列分析,分类和图形技术。它提供了有效的数据处理和存储设施。

在此处了解更多信息

甲骨文数据挖掘:

Oracle Data Mining俗称ODM是Oracle高级分析数据库的一个模块。此数据挖掘工具允许数据分析师生成详细的见解并进行预测。它有助于预测客户行为,开发客户档案,识别交叉销售机会。

​​

数据挖掘的优势:

  • 数据挖掘技术帮助企业获取基于知识的信息。
  • 数据挖掘可帮助组织在运营和生产中进行有利可图的调整。
  • 与其他统计数据应用程序相比,数据挖掘是一种经济高效且高效的解决方案。
  • 数据挖掘有助于决策过程。
  • 有助于自动预测趋势和行为,以及自动发现隐藏的模式。
  • 它可以在新系统以及现有平台中实现
  • 这是一个快速的过程,使用户很容易在更短的时间内分析大量数据。

数据挖掘的缺点

  • 公司有可能将其客户的有用信息出售给其他公司以获取金钱。例如,美国运通公司已将其客户的信用卡购买出售给其他公司。
  • 许多数据挖掘分析软件难以操作,需要提前培训才能使用。
  • 由于设计中采用了不同的算法,不同的数据挖掘工具以不同的方式工作。因此,选择正确的数据挖掘工具是一项非常艰巨的任务。
  • 数据挖掘技术不准确,因此在某些情况下可能会导致严重后果。

数据挖掘应用程序

应用 用法
通信 数据挖掘技术用于通信部门,以预测客户行为,以提供高度针对性和相关的活动。
保险 数据挖掘帮助保险公司对其产品进行有利可图的定价,并向新客户或现有客户推广新产品。
教育 数据挖掘使教育工作者能够访问学生数据,预测成就水平并找到需要额外关注的学生或学生群体。例如,数学科目薄弱的学生。
制造业 在数据挖掘的帮助下,制造商可以预测生产资产的磨损。他们可以预测维护,这有助于他们减少维护,从而最大限度地减少停机时间。
银行业 数据挖掘有助于金融部门了解市场风险并管理法规遵从性。它有助于银行识别可能的违约者,以决定是否发行信用卡,贷款等。
零售 数据挖掘技术可帮助零售商场和杂货店在最专注的位置识别和安排最畅销的物品。它可以帮助店主提出鼓励客户增加支出的优惠。
服务供应商 移动电话和公用事业行业等服务提供商使用数据挖掘来预测客户离开公司的原因。他们分析账单细节,客户服务互动,向公司提出的投诉,为每个客户分配概率分数并提供奖励。
电子商务 电子商务网站使用数据挖掘通过其网站提供交叉销售和追加销售。最着名的名称之一是亚马逊,他们使用数据挖掘技术让更多客户进入他们的电子商务商店。
超市 数据挖掘允许超市的制定规则来预测他们的购物者是否可能期待。通过评估他们的购买模式,他们可以找到最有可能怀孕的女性顾客。他们可以开始定位婴儿爽身粉,婴儿用品店,尿布等产品。
犯罪调查 数据挖掘帮助犯罪调查机构部署警察队伍(犯罪最有可能发生的地方和时间?),在边境口岸搜索谁等。
生物信息学 数据挖掘有助于从生物学和医学中收集的大量数据集中挖掘生物数据。

总结:

  • 数据挖掘定义:数据挖掘就是通过数据分析来解释过去和预测未来。
  • 数据挖掘有助于从大量数据中提取信息。这是从数据中挖掘知识的过程。
  • 数据挖掘过程包括业务理解、数据理解、数据准备、建模、演进、部署。
  • 重要的数据挖掘技术包括分类、聚类、回归、关联规则、外部检测、顺序模式和预测
  • R 语言和 Oracle 数据挖掘是著名的数据挖掘工具和技术。
  • 数据挖掘技术帮助企业获取基于知识的信息。
  • 数据挖掘的主要缺点是许多分析软件难以操作,需要提前培训才能使用。
  • 数据挖掘用于各种行业,如通信,保险,教育,制造,银行,零售,服务提供商,电子商务,超市生物信息学。

猜你喜欢

转载自blog.csdn.net/qq_22182989/article/details/125719155
今日推荐