ビッグデータはどのようなプログラミングの基礎を学ぶために必要ですか?どのようなビッグデータの手順を学びますか?

ビッグデータはどのようなプログラミングの基礎を学ぶために必要ですか?どのようなビッグデータの手順を学びますか?ビッグデータ?私の友人の多くがありますが、最終的にビッグデータが何であるか、私に尋ねましたか?Wordに...

ビッグデータはどのようなプログラミングの基礎を学ぶために必要ですか?どのようなビッグデータの手順を学びますか?

ビッグデータはどのようなプログラミングの基礎を学ぶために必要ですか?どのようなビッグデータの手順を学びますか?
ビッグデータ?

私の友人の多くは最終的にビッグデータが何であるか、私に尋ねたがありますか?一つの文章にまとめ

非ソフトウェア業界の友人のために

大規模データによるスーパーマーケット、ガソリンスタンド、レストラン、その他の場所でいつもの消費者行動のいくつかのこの技術によると、私たちは今、あなたの年齢の範囲を知ることができ、結婚するかどうか、子供、古い子供は一般的に存在する場合、一定の住宅があるかどうか、車は大体どのような価格やその他の情報です。

ソフトウェア業界の友人のために

通常、我々はプログラムが単一マシン上で実行されている書き込み、処理能力はもちろん、データの量は限られている、限定されています。ビッグデータ技術は、実際には、我々は我々のコードは、アップ膨大な量のデータを処理して平行し、これらの膨大なデータ、有意義な情報から、貴重な取得多くのマシンに分散されて実現することができるということです。

ビッグデータのために必要な基本的なスキルを学びます

  1. Linuxの基礎をする必要があります、少なくともあなたがLinuxのコマンドラインの下にコマンドの基本的な操作を習得する必要があります

  2. Java SE基礎は[mysqlの]が含まれ、注意がするJavaSEではなく、JavaEEのです。知識の一部が最大のデータエンジニアを表しjavawebは必要ありません

ビッグデータ技術部門の部門

データ収集

水路、カフカ、logstash、filebeat ...

データストレージ

mysqlの、Redisの、HBaseの、HDFS ...

あなたが仕事でそれなしで行うことはできませんので、私は、リストされているが、このカテゴリに大きなMySQLのデータの一部ではありませんが、

データクエリ

ハイブインパラelasticsearch麒麟...

データの計算

リアルタイムシステム

嵐sparkstreaming FLINK ...

オフライン計算

Hadoopのスパーク...

他のフレームワーク

飼育係...

実際には、ビッグデータの学習は、ビッグデータのサークルを取り巻く生態系の枠組みの様々なを学ぶことです。

ビッグデータはどのようなプログラミングの基礎を学ぶために必要ですか?どのようなビッグデータの手順を学びますか?
ビッグデータ学習ステップ

上記のフレームワークの多くを記載されているが、学習の冒頭でも仕事で、必ずしも全てではありません学ぶが、これらのフレームワークは、必ずしもすべてが使用されることはありません。

ここで私は大体列、それの学習ステップのフレームワークを見ていきます。

注:下記の順序は、実際の状況の個々の順序に応じて調整することができるだけで個々の勧告であります

Linuxの基礎とするJavaSE基礎は[mysqlの]含まれてい

これらは、ちょうど少なくともLinuxの基本的なコマンドをいくつかの時間の後ろのフレームワークはおなじみの詳細と、使用される学習、リアンシュウを混ぜ、非常に堪能学ぶことは不可能である開始、基本的なスキルです。提案されたオブジェクト指向のコレクション、IO、マルチスレッド、およびJDBC操作をすることができた場合のJava SE主に確認してください。

飼育係

飼育係は、多くの大規模なデータフレームの基本である、動物園中国名は、動物の形ですその多くは現在のビッグデータフレームワークのアイコンとして意図されているので、実際に飼育係は、多くのビッグデータフレームワークを管理することができます。このフレームワークでは、主に単一ノードとクラスタを構築するだけでなく、検索操作が可能に変更するzkcliクライアントのノードの飼育係を追加または削除する方法を学習する方法を学びます。

Hadoopの

現時点では、企業は一般的に、バージョンhadoop2.xに使用されているので、学校hadoop1.xバージョンに行く必要はありません、hadoop2.xは3点の大きな作品が含まれています

HDFS早く、コマンドのキー学習HDFSのいくつかは、アップロード、ダウンロード、削除、移動、ビューのコマンドをすることができます...

MapReduceの下では本当にそのMR数回コードを書く作業をしているが、MRの原則とコードの実装を理解するために学ぶことに注力する必要がありますが、原則はまだ理解しなければなりません。

予備的な理解が唯一の糸は、リソース管理プラットフォームである知っている必要がありますすることができた糸は、タスクにリソースを割り当てるための責任があるリソーススケジューリングだけでなく、糸のMapReduceリソーススケジューリングに、できもスパークすることができます...糸は、パブリックリソーススケジューリングプラットフォームです糸の条件を満たすために、すべてのフレームワークは、リソースのスケジューリングを実行するために使用することができます。

巣箱

ハイブは、すべてのデータはHDFSに保存されている、データウェアハウスである、[]データウェアハウス、あなたが検索し、オンラインで行くことができるデータベースの具体的な違いは、記述がたくさんあります。実際には、より身近のMySQLを使用する場合には、主にHQLを書く使用して、ハイブをそれずっと簡単ハイブを使用して、HQLはメインハイブのいくつかの時にハイブを理解するためのフォローアップ研究は、SQL mysqlデータベースに非常に似て、SQL言語のハイブです構文の機能ができます。HQLの実装における実際のハイブでは、現在のプログラムや実行の実装でmapredce。

注意:実際には、ハイブ自体は非常に強力で、データウェアハウスの設計が仕事でも非常に重要ですが、とき早期学習、主に十分な使用方法を学習します。後者は、よく見てハイブを持つことができます。

HBaseの

HBaseのNoSQLデータベース、キーと値のタイプのデータベースであり、基礎となるデータは、HDFSに格納されています。メイン行キー設計、および列クラスタ設計を習得する学習でのHBase。注意すべき一つの特徴は、素早く効率をすることができます達成秒のクエリをクエリ、というのHBaseベースのrowKeyですが、クエリ列ベースのクラスタの列、特に複合クエリーのデータ量が大きい場合、それは貧弱なクエリのパフォーマンスになります。

繰り返します

RedisのものNoSQLデータベースとデータベースのキーと値の型が、データベースは、データベース内のRedisのデータであり、純粋なメモリに基づいていますが、メモリに保存されているので、それが機能だと、高速な読み取りと書き込みのアプリケーションに適していますシナリオは、読者が10W /秒に達したが、大容量データ記憶装置には適していないことができ、機械後のメモリは限られています。

もちろん、Redisのも、あなたはまた、大量のデータを保存することができ、クラスタをサポートしています。Redisのメインマスター列、リスト、セット、にSortedSet、データの種類と使用のこれらのタイプの間でハッシュマップの違いだけでなく、パイプラインのパイプラインを学習すると、データの大容量記憶装置で、この時間は非常に便利なだけでなく、トランザクションのトランザクション機能です。

-flume

水路は、最も一般的には買収で生成されたログファイルデータで、これは非常に一般的です、ログ収集ツールです。リアルタイム処理をsparkstreaming後で使用するか、嵐のための2つのプロセス、水路カフカ収集したデータストレージは、一般的にあります。別のプロセスデータは、後の使用のHadoopスパークまたは処理オフラインのために、ディスクのHDFSに水路をオフに収集されます。実際には、キーは、水路の使用は、様々な構成を記述することがあるため、設立の設定パラメータの多様性を学ぶ、文書を勉強水路水路公式サイトを見て学ぶことです。

-kafka

カフカは、リアルタイム処理でシーンのために、しばしば、例えば、flume-> kafka->嵐/ sparkstreaming、中間バッファ層として機能し、メッセージ・キューです。カフカは、主要な概念と原則のトピックを習得することを学ぶパーティション、などを複製します。

嵐がリアルタイムシステムの枠組みであり、その差は、嵐は、データが処理されるたびに追加されている間にHadoop大量のデータは、オフラインで処理され、Hadoopのであり、プロセスが1である、データ処理の適時性を確保することができ。準備、主要な嵐と嵐統合カフカリアルタイム消費データのトポロジーを学ぶことを学ぶの嵐の平行度を調整する方法。

-スパーク

今すぐ開発を刺激も非常に良いですが、また多くの技術スパーク、スパークコア、スパーク蒸し、スパークMLIB、スパークgraphxが含まれているエコシステム、へと発展しました。

オフライン処理スパークコアが含まれているスパークエコシステム、およびリアルタイム処理スパークストリーミングが、ここでは、嵐とスパーク・ストリーミングを見る必要があり、リアルタイム処理フレームワークは2ですが、主な違いは次のとおりです。嵐が1にすることにより、実際の契約ですスパークストリーミングは、バッチ処理にバッチです。

スパークは、研究の初めに、フレームワークの多くが含まれており、主な研究スパークコアはストリーミングを刺激することができます。これは、一般的なビッグデータに従事するために使用されます。スパークMLIBとスパークgraphxは、後の作業が必要のを待つか、勉強する時間を持つことができます。

-elasticsearch

elasticsearchは、リアルタイムクエリ内のデータの膨大な量、分散型クラスタのサポートのためのフルテキスト検索エンジンで、基礎となる事実はLuceneをベースにしています。クエリは、高速あいまいクエリ、求めている回数、個別の、合計、平均および他の操作をサポートしていますが、結合操作をサポートしていない場合。

elasticsearchエコシステム、ヘラジカ(elasticsearch logstash kibana)は、典型的なログ収集、保管もあるで、すぐにチャートの解のセットを見つけます。学習においてElasticsearch、メイン前に行わCRUDのES、インデックス内のES、タイプ、コンセプト文書だけでなく、ESデザインのマッピングを使用する方法を学びます。

現在、ビッグデータエコシステム、それのそんなに当分の間リストされ、優れた技術フレームワークの多くは、これはあなたが拡大し、作業後に行く後に待たなければならない、残っています。

これらのフレームワークのダースに上記の実際には、あなたがインタビュープロセスの中で目立つことができますので、もし、カバーされている基本的な原理、最適化、およびソースコードの他の部分のために何が最善か上の1つのまたは2つの特別な焦点を選ぶことを学ぶとき。でも、現在実際には、非現実的である、各フレームを考える堪能出しされてはいけません

あなたはそれ以上のフレームワーク上で生きることができる場合は、一般的に使用されますと、二つのフレームのより深い研究のために、そして、実際には、十分なビッグデータの仕事は当然の結果となり探していました。

おすすめ

転載: blog.51cto.com/14459670/2422059