最好的大数据处理工具--Hadoop

架构大数据解决方案的软件工程师们都知道,业务分析有一项技术跨越了SQL数据库、NoSQL数据库,非结构化数据、面向文档数据存储及大型处理。如果你猜到了Hadoop,那你回答正确。Hadoop也是许多巨头公司具有的一个共性,如亚马逊、雅虎、AOL、Netflix、eBay、微软、谷歌、 Twitter和Facebook。IBM甚至是走在时常的前沿,促进Hadoop进行企业分析。此开源模型无处不在,它在这个舞台上停留的五年,是一个真的角色,我们不得不为此感到惊讶。

Hadoop的未来

为了了解过去几年发生了什么,我们走访了Chuck Lam,《Hadoop在行动(Hadoop in Action)》一书的作者。Chuck说Hadoop还没有停下来休息。“整个生态系确实是进化,而且改变了许多。现在甚至出现了官方1.0版本。更重要的是,MapReduce的基础编程模型已经重新修订,且做了不少的改变。”一般来说,这些改变都向着有利的方面发展的。开发方向已经使得这个框架易于部署在企业中,并解决一系列的问题,如对于风险规避公司是问题之首的安全问题。

在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

好处越来越多,包括高水平的可扩展性。此框架中的分布式计算意味着添加越来越多的数据,而不必改变添加它的方式。没有必要去改变格式,或打乱工作编辑的方式或决定哪一个应用完成的此工作。你只是随着工作的进行添加更的节点即可。你不必挑剔你存储的数据类型或它来源。无模式是此游戏的名称。该框架的并行计算能力还使商品服务器存储究竟的利用率更高。这意味着企业可以保存,使用更多的数据。无论哪个节点出现故障,它都没事。即使系统出现故障,也不会丢失数据,降低性能。

助力Hadoop技术

Hadoop现在也更加的灵活,允许业务做更的事情,处理更多的数据类型。如此强大的功能源于Hadoop的许多同伴项目,包括像Pig这样的语言,以及如下的可扩展解决方案:

1、Hive (数据仓库)

2、Mahout (机器学习和数据挖掘)

3、HBase (大型表格的结构化存储)

4、Cassandra (多主机数据库)

当然,此类型的解决方案并不一直都是美好好。Lam说主要的陷阱就是处理做出的假设。换言之,错不在我们的系统而在我们自己。“新技术并不是所有问题的灵丹妙药。正如NoSQL这类的一样简单,但你必须要更深一层地弄清楚你要解决的问题。”这可能意味着慎重地查看你的算法,而不是只是把你的员工扔给 MapReduce,然后期望Hadoop自动扩展。使用模式的数据会影响你的扩展模式——尤其是当使用不平均是。然后线性扩展可能就不起作用了。再一次,这个并不是Hadoop本身的问题。Lam相信有工具在手的企业已经足够成熟了。这只是确保IT管理员熟悉这些工具,确保使用Hadoop的软件架构师知道怎样更有效地使用用这项技术。

猜你喜欢

转载自blog.csdn.net/qq_38459998/article/details/90168002