ビッグデータの紹介
ビッグデータ?
ビッグデータ(BigData)は:もはや、キャプチャしたデータ収集のための時間枠もない、管理、および従来のソフトウェアツールで処理を指し、より多くの意思決定力を持っているために、新しい処理モードのために必要である、洞察力は、巨大な力とプロセスの最適化機能を見つけました高い成長率と多様な情報資産。
大型データ記憶部
ビッグデータの特長
- ボリューム(ロット):今のところ、人間によって作成されたすべての印刷物のためのデータの量が200PBで、5EBに関する人類の発言の歴史上のデータの合計量。現在、TBのための一般的なパーソナルコンピュータのハードドライブの容量、大企業の数はEBの順に近いされているデータの中量。
- 速度(ハイスピード):これは、従来のデータマイニングの最も重要な機能でデータの間には大きな違いです。報告書によると、「デジタル・ユニバース、」IDCは2020年までに、グローバルデータ使用量が35.2ZBに到達することが予想されます。このようなデータの膨大な量の顔には、データ処理効率が命です。
- 種々の(多様性):多様性のこのタイプはまた、データは構造化データと非構造化データに分割されることを可能にします。ロギング・ネットワーク、オーディオ、ビデオ、画像、位置情報など、データのデータ処理のこれらの複数のタイプを含む、簡単なストレージ/テキストベースの構造化データのための従来のデータベースに対して、非構造化データはますます高い需要を置く能力。
- 値(低値の濃度):サイズは、濃度データの合計値のレベルに反比例します。どのくらいの速さ、貴重なデータを「浄化」は解決すべき現在の背景データの下に大きな問題となっています。
ビッグデータ技術エコシステム
はじめにHadoopの
Hadoopのは何ですか?
-
Hadoopの分散システム基盤の開発によってApacheの財団です。
-
主に大規模なデータの膨大なデータストレージや計算問題を分析し、解決します。
-
大まかに言えば、Hadoopのは、通常、上位概念--Hadoop生態系を指し、
Hadoopの開発の歴史
Lucene框架时Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。 2001年年底,Lucene成为Apache基金会的一个子项目 对于海量数据的场景,Lucene面对与Google同样的困难,存储数据困难,检索速度慢 可以说,Google是Hadoop的思想之源(Google在大数据方面的三篇论文)
- GFS ---> HDFS
- MapReduce ---> MR
- BigTable ---> HBase
2003-2004年,Google公开了部分GFS和MapReduce的思想的细节,以此为基础Doug Cuting等人用了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。
2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会
2006年3月份,MapReduce和Nutch Distributed File System (NDFS)分别被纳入称为Hadoop的项目中
Hadoop的名字来源于Doug Cutting儿子的玩具大象
Hadoop就此诞生并迅速发展,标志着大数据时代的来临
Hadoop三大发行版本
Apache、Cloudera、Hortonworks
-
Apache:最原始的版本,对入门学习最好
-
Cloudera:在大型互联网企业中用的较多,产品叫 CDH
-
Hortonworks:文档较好,比Cloudera晚两年出来
Hadoop的优势
-
高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
-
高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
-
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
-
高容错性:能够自动将失败的任务重新分配。
Hadoop1.x与Hadoop2.x的区别
HDFS概述
NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所在的DataNode等
DataNode:在本地文件系统存储文件块数据,以及块数据的校验和
Secondary NameNode:用来监控HDFS状态的辅助后台程序,每个一段时间获取HDFS元数据的快照
Yarn概述
MapReduce概述