今日までのHadoopは、大規模なデータ処理ニーズの異なるシーンを満たすために製品の非常に豊かな家族となっています。現在主流の大規模なデータ処理技術として、大規模なHadoopのベースのデータサービスの市場で多くの企業が実施しているだけでなく、非常に成熟した溶液を用いてシーンをたくさん持っています。
Hadoopのとそのエコシステムの枠組みの中で技術を開発するためのマスターの開発者としては、唯一の方法は、ビッグデータのフィールドを入力することです。
Hadoopの技術開発ロードマップを学習に関する次の詳細。
Hadoopの自体はJavaであるため、ジャワの支援は非常に良いですが、それはまた、他の言語で使用することができます。
次のデータマイニング技術ロードマップは、私たちがタスクを実行するためのPythonのPythonを使用しているため、高い開発効率の、方向性を重視しました。
Hadoopのは、Linuxシステム上で実行されているので、あなたはまた、Linuxの知識を持っている必要があります。
データは、ダニエルが一緒にビデオ共有学習リソースを持っている大きな社会的関心号プログラマを勉強したいことがあり
第一段階:Hadoopのエコ建築技術の
言語基盤
Javaの:マスターのJava SEの知識、Java仮想マシンのメモリ管理にご理解と実践、およびマルチスレッド、スレッドプール、デザインパターン、並列処理することができ、深い理解なし。
Linuxの場合:システムのインストール(コマンドラインインターフェイスとグラフィカルインタフェース)、基本的なコマンド、ネットワーク構成は、Vimエディタ、プロセスマネージャ、シェルスクリプト、仮想マシン、およびメニューとの馴染み。
基礎基本的な構文、データ構造、機能、条件判断、循環:Pythonの。
環境の準備
ここでは、Windowsは、メイン2から、完全分散型コンピュータを構築することです。
VMware仮想マシン、Linuxシステム(Centos6.5)、Hadoopのインストールパッケージ、良い準備ここで完全分散型Hadoopクラスタ環境。
MapReduceの
オフラインMapReduceの分散コンピューティングフレームワークが、Hadoopのコア・プログラミング・モデルです。バッチ実行である、ように主に大量のクラスタタスクのために、適時性は低いです。
HDFS1.0 / 2.0
Hadoopの分散ファイルシステム(HDFS)低コストのマシン上での展開に適した、非常にフォールトトレラントシステムです。HDFSは、大規模なデータセットでの使用のための理想的な、高スループットのデータアクセスを提供します。
糸(Hadoop2.0)
早期理解するために、糸は、リソース管理プラットフォームであるタスクにリソースを割り当てるための責任があります。糸は、フレームワークのすべての条件が糸リソーススケジューリングに使用することができます満たすために公共のリソーススケジューリングプラットフォームです。
巣箱
ハイブは、すべてのデータは、HDFS上に格納され、データウェアハウスです。使用ハイブは、主にSQLのMySQLデータベースに非常によく似たHQLを、書きます。実際には、底部または実行の実装にハイブ実行MapRedceプログラムHQL、。
スパーク
スパークは、メモリベースの反復計算で高速汎用コンピューティングエンジンのために設計された大規模なデータ処理のために設計されています。スパークのMapReduceの利点を維持するだけでなく、適時に大きく改善されています。
スパークストリーミング
スパークリアルタイムストリーミング処理フレームワークは、データをバッチにバッチで処理されます。
スパークハイブ
SQLスパークの高速検索。ハイブ計算エンジンとしてスパーク、スパーククラスタで計算するスパークタスクとして提出ハイブクエリ、あなたはハイブクエリのパフォーマンスを向上させることができます。
嵐
データの質量はオフラインで処理され、嵐が追加されるたびにデータが処理され、プロセスは1である嵐がリアルタイムシステムのフレームワークであり、MR、MRとの間の差であり、我々は、データ処理の適時性を確保することができ。
飼育係
飼育係は、クラスタ・マネージャである多くの大規模データ・フレームワークの基礎です。合理的なフィードバック送信ノードに応じて、次の動作のためにクラスタ内の各ノードの状態を監視します。
最後に、簡単なインタフェースは、ユーザに効率的な性能、機能、システムの安定性とを使用します
HBaseの
HBaseのNoSQLのは、データベース、キー・バリュー型のデータベースである、信頼性の高い、列指向、スケーラブルな分散型データベースです。
HDFS非構造化データストレージ、基礎となるデータ・ストアへの適応。
カフカ
リアルタイム処理でシーンがしばしば中間バッファ層として働くためカフカは、メッセージ・ミドルウェアです。
水路
水路は、一般的には、アプリケーションによって生成された2つのプロセスがあり、共通のログ収集ツール、データ収集のログファイルです。
水路はカフカを収集されたデータ・ストレージは、それが便利または嵐SparkStreamingリアルタイム処理です。
別の方法は、後の使用のHadoopのスパークまたは処理オフラインのため、水路HDFS収集されたデータを格納することです。
第二段階:データマイニングアルゴリズム
中国語の単語
オフラインとオンラインアプリケーションのオープンソースポイント辞書
自然言語処理
テキスト関連性アルゴリズム
推薦アルゴリズム
CB、CF、正規化、Mahoutのアプリケーションに基づきます。
分類アルゴリズム
NB、SVM
回帰アルゴリズム
LR、ディシジョン・ツリー
クラスタリングアルゴリズム
階層的クラスタリング、関数kmeans
ニューラルネットワークと深い学習
NN、Tensorflow
上記のスペースの都合のみリストとフレームワークの役割を説明の観点から、ルートのHadoop開発の詳細な研究です。
すでに仕事に関連ビッグデータアーキテクチャに従事し、またはいくつかは、企業内の開発とメンテナンス作業の一部を担当することがあり、第一段階を完了した後の知識。
学習知識の第二段階を完了し、現在、ビッグデータの業界最高のオペレーティング金に入っているデータマイニング関連の仕事に従事することができます。