自己ビッグデータどこから始めれば

ビッグデータ技術深すぎる感じ、あなたは自己ビッグデータにしたい、開始するにはどこ?

ビッグデータ技術について、今日の提示に焦点を当てます!

まず第一に、この用語は、ビッグデータの概念に言及しました。ビッグデータは、データの性質であるが、それは新機能のハイライトを持っています。含む:大規模なデータソース、多様なデータフォーマット(構造化データ、非構造化データ、Excelファイル、テキストファイルなど)、データの量(TBの最小レベルはおそらくPBレベルもある)、高速データ成長ように。

ビッグデータ我々は以下の金額になると思う四つの基本的な特性について話拡張:

1.データソースワイド?

何を意味するのかによって収集し、まとめ、データソースの広い範囲から来ますか?私たちは、比較的Sqoop、ように見える
Cammel、DATAXおよびその他のツール。

2.データ収集の後、どのように保存するには?

買収後、当社の対応の利便性のためのストレージは、GFS、HDFS、TFSおよびその他の分散ファイル・ストレージ・システムが登場しました。
また、また、データストレージ、に私たちを必要とするデータ間の成長率は非常に速いが、水平に拡張することができなければなりません。

データの後に3が格納されている、操作で一貫性のあるフォーマットに変換どのように迅速に、どのように迅速にあなたが望む結果を計算しますか?

この点で、MapReduceはフレームワーク提案されたソリューションを計算分散しました。大型のMapReduceにJavaプログラミングコードを必要とするためしかし、このように、ハイブ、ブタあったというようにSQLのMapReduce分析エンジンに変換され、再び、データの一括処理するバッチに唯一の共通のMapReduceバッチは、時間がかかるためあまりにも、そして究極の目標は、彼は、低レイテンシーフローコンピューティングフレームワークなどの嵐/ JStormに登場したので、私たちは、結果を取得し、データ入力を必要とするが、同時にバッチおよびフロープロセスを必要に応じて、上記に応じなければなりません二つのクラスタは、困難であり、ストームクラスタ(HDFS + MapReduceの+糸を含む)Hadoopクラスタは、実質的に(管理するので、スパーク計算フレームワークを停止し、バッチ処理を行うことができるようなあった、およびストリーミングすることができますマイクロバッチ)。そして、ラムダアーキテクチャ、カッパアーキテクチャの出現でなく、ビジネスプロセスのための共通のアーキテクチャを提供します。
  
  また4は、効率を向上させる交通の速度を加速するために、いくつかの補助があります。
  
  オジー、アズカバン:タイミングタスクのスケジューリングツール。
  色相、Zepplin:グラフィカルなタスクの実行管理、結果ビューア。
  Scalaの言語:もちろん、あなたは、Pythonを使用するように選択することができ、最高の言語スパークプログラムを書きます。
  Python言語:スクリプトを書くときに使用します。
Allluxio、麒麟のように:ツールの動作速度を加速するために、データ記憶装置によって前処理さ。

これらは、大規模なデータエンドのトレーニングコースは偉大なデータ開発のより詳細かつ完全な知識を持っている中で、内容はそれほど上のLinux &&のHadoopエコシステム、ビッグデータ・コンピューティング・フレームワーク、クラウド・コンピューティング・システムを備えており、使用することができますツールビッグデータエコシステムです。私たちは生活の中で特別な成果のために、参加する興味を持って友人を見て、夢の橋を構築する私たちを

おすすめ

転載: blog.csdn.net/kangshufu/article/details/92426039