大佬用了三年的时间终成Hadoop大数据分析与挖掘实战，值得一学

我国由于信息化程度不太高，企业内部信息不完整，零售业、银行、保险、证券等对大数据分析与挖掘的应用并不太理想。
但随着市场竞争的加剧，各行业对大数据分析与挖掘技术的研究与应用意愿越来越强烈，可以预计，未来几年，各行业的数据分析一定都是大规模的数据挖掘与应用。
在大数据时代，数据过剩、人才短缺，数据挖掘专业人才的培养又需要专业知识和职业经验积累。所以，本篇在注重大数据时代数据挖掘理论的同时，也注意与大数据项目案例实践相结合，这样可以让读者体验真实的大数据挖掘学习与实践环境，更快、更好地学习大数据分析与挖掘知识以及积累职业经验。
总地来说，随着大数据时代的来临，大数据分析与挖掘技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产要素，人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析与挖掘技术将帮助企业用户在合理时间内攫取、管理、处理、整理海量数据，为企业经营决策提供积极的帮助。
大数据分析与挖掘作为数据存储和挖掘分析的前沿技术，广泛应用于物联网、云计算、移动互联网等战略性新兴产业。虽然大数据目前在国内还处于初级阶段，但是其商业价值已经显现出来，特别是有实践经验的大数据分析人才更是各企业争夺的热门资源。
大数据时代来临，风云变化，时不我待!
数据挖掘的基本任务
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力。
对餐饮企业而言，数据挖掘的基本任务是从餐饮企业采集各类菜品销量、成本单价、会员消费、促销活动等内部数据，以及天气、节假日、竞争对手以及周边商业氛围等外部数据;
之后利用数据分析手段，实现菜品智能推荐、促销效果分析、客户价值分析、新店选点优化、热销/滞销菜品分析和销量趋势预测;最后将这些分析结果推送给餐饮企业管理者及有关服务人员，为餐饮企业降低运营成本，增加盈利能力，实现精准营销，策划促销活动等提供智能服务支持。

Hadoop生态系统: Hive
Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的，是建立在Hadoop上的数据仓库基础构架。作为Hadoop的一一个数据仓库工具，Hive可以将结构化的数据文件映射为--张数据库表，并提供简单的SQL查询功能。
Hive作为构建在Hadoop之上的数据仓库，它提供了一系列的工具，可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
Hive定义了简单的类SQL查询语言，称为HQL,它允许熟悉SQL的用户查询数据。同时，该语言也允许熟悉MapReduce的开发者开发自定义的Mapper和Reducer来处理内建的Mapper和Reducer无法完成的复杂的分析工作。
Hive没有专门的数据格式。Hive 可以很好地工作在Thrft之上，控制分隔符，也允许用户指定数据格式。
Hive具有以下特点:
口支持索引，加快数据查询。
口不同的存储类型，如纯文本文件、HBase 中的文件。
口将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。
口可以直接使用存储在Hadoop文件系统中的数据。
口内置大量用户函数UDF来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF函数来完成内置函数无法实现的操作。
口类SQL的查询方式，将SQL查询转换为MapReduce的Job在Hadoop集群上执行。

挖掘建模
经过数据探索与数据预处理，得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、智能推荐等模型，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力。

背景与挖掘目标
随着网上购物越来越流行，人们对于网上购物的需求变得越来越高，这给京东、淘宝等电商平台提供了很大的发展机会，但是与此同时，这种需求也推动了更多电商平台的崛起，引发了激烈的竞争。
在电商平台激烈竞争的大背景下，除了提高商品质量、压低商品价格外，了解更多消费者的心声对于电商平台来说也变得越来越有必要，其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析。通过挖掘得到的这些信息，也会有利于提升对应商品的生产厂家自身的竞争力。
本篇对京东平台上的热水器评论做文本挖掘分析，本次数据挖掘建模目标如下:
1)分析某一热水器的用户情感倾向。
2)从评论文本中挖掘出该热水器的优点与不足。
3)提炼不同品牌热水器的卖点。

基于Mahout的大数据挖掘开发
目前，基于Hadoop框架的大数据开发的数据挖掘算法库一-Mahout 已经相当成熟，Ma-hout在MapReduce模式下封装实现了大量数据挖掘经典算法，为Hadoop开发人员提供了数据建模的标准，从而大大降低了大数据应用中并行挖掘产品的开发难度。本章详细分析了如何利用Mahout进行基于Hadoop框架的大数据挖掘开发，介绍如何利用Mahout来构建自己的数据挖掘平台，即如何把Mahout加入到自已的项目中。

基于TipDM-HB的数据挖掘二二次开发
随着企业信息化的推进和应用水平的不断提高，企业中积累的数据规模越来越庞大。如何有效地利用历史数据，挖掘出有价值的信息，从而帮助企业能够对未来变化作出及时正确的决策，最终在激烈的市场竞争中占据主动，已经成为当前企业越来越迫切想要解决的问题。
TipDM- HB大数据挖掘开发平台就是这样一套用于从大量的企业数据中挖掘出智能知识，并且快速定制应用的二次开发平台。TipDM-HB大数据挖掘建模平台提供多种算法模型的Web服务接口，可供开发人员调用，减小开发难度、周期，加快工作效率。下面介绍TipDM-HB数据挖掘开发平台的各个Web服务，同时给出开发实例，使读者不仅可以了解使用TipDM-HB大数据挖掘建模平台进行二次开发的各个流程，还可以实战练习，加深理解。

大数据分析与挖掘已经成为大数据时代最重要的技能之一，社会对这方面的人才的需求随着数据的增长而不断增长。目前，数据分析与挖掘方面的技术和工具已经很多，而且在不断成熟，基于Hadoop架构的大数据挖掘技术在这方面具有非常明显的优势，应用范围也越来越广，但是这方面的系统性学习资料却十分稀缺。
为了满足目前的大数据分析人才需求，本篇以大家熟知的Hadoop技术来展开，理论部分介绍了Hadoop生态系统基本原理及常用大数据挖掘建模工具。案例部分以解决某个应用的挖掘目标为前提，先介绍案例背景提出挖掘目标，再阐述分析方法与过程，最后完成模型构建，在介绍建模过程中穿插操作训练，把相关的知识点嵌入相应的操作过程中，使读者轻松理解并掌握相关的理论和知识点。

juan777

发布了37 篇原创文章 · 获赞 1 · 访问量 3475

私信关注

大佬用了三年的时间终成Hadoop大数据分析与挖掘实战，值得一学

猜你喜欢