大数据学习---Hadoop学习

大数据介绍

什么是大数据以及有什么特点

大数据:是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据是一种方法论:“一切都被记录,一切都被数字化,从数据中寻找需求,寻找知识,发掘价值”。

大数据技术:指从各种各样类型的数据中快速获得有价值信息的能力。

大数据的特点:数据体量巨大、数据类型繁多、价值密度低、产生和处理速度快

新的大数据处理平台:

开源:Hadoop、Spark(Apache)、Atorm(Twitter)、MongoDb

商用:IBM PureData、Oracle Exadata、SAP Hana、Teradata AsterData、EMC GreenPlum、HP Vertica

Hadoop的优势:

低成本 基于来源软件,运行与通用硬件平台。

高扩展性 在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以方便的扩展到数以千计的节点中。

高效性 在节点之间动态分配计算任务并保证各个节点的动态平衡,处理速度非常快。

高容错性 自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

Hadoop生态圈:

存储数据HDFS(Hadoop Distributed File System),运行在通用硬件上的分布式文件系统。具有高度容错性、高吞吐量的的特点。

处理数据MapReduce,它是一种编程模型,Map(映射)和Reduce(归约),它极大地方便了分布式并行编程,与hdfs的高度融合,它是基于java来进行编程的。

数据仓库工具Hive,处理结构化SQL查询功能,将sql语句解释为MapReduce编程进行数据的处理,只能进行结构化的查询。

Pig MapReduce之上的高级过程语言,查询大型的半结构化数据集,处理非结构化数据。

HBase(Hadoop Database) 它是一个适用于非结构化数据存储的数据库,基于列存储,不同行可有不同数据列,保留数据多个时间版本。

Zookeeper 分布式应用程序协调服务提供一致性服务。

Hadoop完全分布式安装教程

【更多参考】

Hadoop完全分布式安装教程

猜你喜欢

转载自www.cnblogs.com/ftl1012/p/hadoop.html