良いプログラマ大きなシェアデータゼロベースのHadoopを起動する方法を学びます

  学習ゼロベースのHadoopをどのように開始するには、学習によって多くの学生にHadoopをビッグデータを学習し学習教材がメインの基準方向としてブックに基づくことができる、「HadoopのDefinitive Guideのは、」大きなデータブックを開始するには良い場所は確かですが、データシステム自体は、分散システムであるので、私は、分散システムの概念は、ビッグデータフレームワークのすべての種類、基本をマスターすることだと思います。

  

  1  はじめに:

  Hadoop フレームワークは、ストレージの集合である(HDFS) 計算(MRの計算モデル、リソース管理(糸)は、統合フレームワークの1に等しい我々がよく知られて見えるので、当然のことながら、この除く、過去のステージ製品であるWORDCOUNT 特定の練習(MR)は、どのような次のシーンを計算する方法ですか?

  

  1-1  分散システム

   WORDCOUNTの誰もがマルチスレッド、紙切断及び他の実装を考えるであろうにも治療することができる伝統的なスタンドアロンモードへプログラムは、単に、並列コンピューティングの概念は、マルチコア、ハードウェアが進行し、性能を向上させるために続けて、新しいものではありませんコンピューティングは、長年にわたって開発されており、同時にデータは、世界は急速な成長によって生成され、処理速度とデータ処理の重大な不一致両方の出会いの後に、スタンドアロンの元の下のマルチコア並列マルチタスク、マルチスレッド計算計算能力を向上させる方法の問題は避けられないので、核となるアイデアである並列性を有する一方で、リソースのレベルを計算する能力の開発に対処するため、クラスター・アプローチを拡張、我々は伝統的なスタンドアロン型に類似し、現在のクラスタ(ブラックボックス)を理解することができます方法間のクラスタノード並列計算は、マスタ-スレーブ・アーキテクチャ、クラスタ管理、メッセージ通信、フォールトトレランス、等を含む、それ自体分散システムであるため、これらを考慮し、問題を解決するシステムを分散しています。

  

  1-2  分散ストレージ

  ただ、簡単に必ずしもストレージを必要とする、ストレージが分散ストレージシステム(使用方法を、次に、基本である、である必要があり、それはコンピューティングに来るとき、実際には潜在的な問題は、データを計算することがありますされ、分散システムを述べた HDFS 上に)我々は、(そのようなブロックするものであるとして、ファイルシステム、分散ファイルシステム)、それの一部を理解して使用します(読み取りおよび書き込みしなければならないHDFSを)が、学生のほとんどは、比較的身近なリレーショナルデータベースとその使用されているので、SQL 、ですファイルを呼ばれ、特定の基礎となる状況は理解していない、またはクラスファイルの学習体験のためのデータベースソフトウェアの開発に参加しなかったアプリケーションレベルのものが比較的小さいですIOの、操作シリアライズ、圧縮、内蔵またはので、奇妙なの種類を読み取りおよび書き込み、読み書きするカスタムファイル形式のHDFS ファイルシステムの性質。

  

  1-3  分散コンピューティング

  MRの計算モデルは、以下のような感情は特別な経験はありません、前より少ない接触でのMR 、コンクリートが行うことができますが、前に私たちが接しているので、その上でどのような場面とを使用してOLTP (オンライントランザクション処理[ OLTPオンライン・トランザクション処理]

  

オンライン・トランザクション処理は、オンラインシステムは、一般的に小さな問題だけでなく、主にメインのアプリケーションとして、従来のリレーショナル・データベース、主に基本的な、日常の業務に小さなクエリに非常に利用可能な、非常に高いトランザクションシステムを表し、治療は、主にビジネス、銀行取引などのデータ)の操作、および元々データマイニングのために使用され、大規模なデータのために、それはより多くのある OLAP (オンライン分析処理[ OLAPオンライン分析処理]:

 

オンライン分析処理、と呼ばれることもあり DSSの意思決定支援システムは、我々はデータウェアハウスを呼んで、焦点は主に分析を向いている、お問い合わせの多くを生成します、それはほとんどの追加および削除が含まれていません。)動作、MRの計算のモデルマップの操作と削減我々は、多くの場合、需要を満たす操作は、マップの操作は、データクレンジング、変換する責任があり、削減データ集約のための運用責任者、およびSQL での選択句とでグループ句もに対応していませんそのような実用的には、それを必要とするが、ちょうど異なる方法インチ

 

 

高度な

 

2-1 建议以分布式系统的角度来看待大数据中的各类框架,了解下分布式理论如CAP理论、主从架构方式等等

 

2-2 当然由于这些框架所处理的不是同一方向的问题,所以我们首先框架分类,参考如下


技术架构

 

```

数据采集:flumelogstash

数据存储:hdfshbasealluxioesneo4jjanusGraphredismongodbtidb

数据计算:hiveimpalasparkflinkdruid

数据通道:kafkapulsar

任务调度:azkabanairflow

多维数据模型

数据同步:sqoopdataxcanal

数据格式:parquet orc csv json

协调服务:zookeeper

10 监控:zabbixprometheus

 

推荐

 

3.1 大数据的各类框架 官网永远是第一手资源,一定要看

 

3.2 大量的公众号、stackoverflowgithub

 

3.3 google查询资源

 


おすすめ

転載: blog.51cto.com/14479068/2437463