クラスタの展開と監視:Ambari、Clouderaのマネージャー

2020大型データ処理の最初のステップは、収集したデータです。

最初のステップは、データを処理する大規模なデータを収集することです。さて、一般的に、データが複数のサーバー上で収集する必要があるので、分散展開のための大規模プロジェクトではマイクロサービスアーキテクチャを使用し、収集プロセスは通常の業務の遂行に影響を与えることはありません。この要求に基づいて、このような水路、Logstashなど、それらは容易に構成することができる複雑なデータ収集および重合の完了としてログ収集ツール、様々な由来します。

データストレージ

データを収集した後、次の質問は次のとおりです。データを保存することができますか?通常知られている私たちは、MySQL、Oracleおよびその他の従来のリレーショナルデータベースに保存されたデータであり、これらの伝統的なデータベースの特性は、ランダムアクセスのためにすぐに構造化されたデータを格納する機能、およびサポートです。しかし、データの大規模なデータ構造は、典型的には、半構造化され(例えば、ログデータ)も構造化されていない(例えば、ビデオ、オーディオ、データ)、HadoopのHDFSに由来する半構造化データと非構造化データ、KFSをマスストレージを解決するために、構造、半構造化および非構造化データストアをサポートすることができる他の分散ファイルシステムを、GFS、および横方向の機械を増加させることによって拡張することができます。

大容量データ記憶装置の問題への分散ファイルシステムの完璧なソリューションが、良いデータ・ストレージ・システム、従来のリレーショナル・データベースである、たとえば、あなたはデータへのランダムアクセスを実行できるようにしたい、二つの問題にデータストレージおよびアクセスを考慮する必要があります良いですが、配布されていないファイルシステムが同時にできるストレージソリューションは、この要求に基づいて、分散ファイルシステムやリレーショナルデータベースの利点を組み合わせ、そこ、良いです、それはHBaseの、MongoDBのを作成します。

データ分析

2020大型データ処理の最初のステップは、収集したデータです。

バッチ処理とストリーム処理:最も重要な部分は、データ分析を処理する大規模なデータであり、データ解析は、通常2つのタイプに分かれています。

バッチ:均一な処理のための時間をかけて大量のオフラインデータは、対応するプロセスフレームのHadoopのMapReduce、スパークあり、FLINK等。

ストリーム処理:データは、データを受信しながら、それが処理されている、すなわち、運動中に処理され、対応するプロセスフレームは次のように嵐、スパークストリーミング、ストリーミングFLINKと有します。

各ストリームとその応用シナリオ、限られたハードウェアリソース感受性か否時間、バッチ処理を処理するバッチを使用することができる、時間に敏感な、別のジョブ・ストリームの処理の適時性要件を使用することができます。サーバハードウェアの価格が低く、低取得とみんなの適時性要件は、このような株価予測電気の供給業者と運用データ分析など、ますます厳しい、より多くの一般的なストリーム処理、となっていると。

データ・アプリケーション

データ解析が完了したら、次のステップは、あなたの実際のビジネスニーズに応じて、データカテゴリのアプリケーションです。たとえば、データが示す、またはデータが、そのような短いビデオパーソナライズされた勧告、製品の推奨の電気の供給、見出しやお勧めのように、今日は非常に一般的な使用あなたの推薦アルゴリズムを、最適化するために使用する可視化することができます。もちろん、あなたもあなたのマシン学習モデルをトレーニングするためのデータを使用することができ、これらはすべてのエリアその他のエリアであり、停止ここでの処理のために、対応するフレームワークや技術スタックを持っています。

学習パス

ビッグデータ学習しきい値が比較的高い、まず第一に、特定の言語の基礎を持っています

1.java

フレームワークのJava言語の開発を使用したビッグデータフレームワークのほとんどは、ほぼすべては、Java APIを提供します。Javaはより多くの主流の背景の開発言語は、無料のオンライン学習リソースは、よりになりますです。

2.scala

ScalaはJava仮想マシン上で実行すると、あなたはJavaクラスライブラリのすべてとシームレスに動作できることを、有名なカフカは、Scalaの言語発達を使用することである統合オブジェクト指向と関数型プログラミングの概念静的型付けのプログラミング言語です。

なぜ私は、Scalaの言語を習得する必要がありますか?現在最もホットなコンピューティングフレームワークFLINKとスパークは、コードは、Java 8を使用するために必要な未満、開発のためにそれを使用して、インターフェイスScalaの言語を提供するため、これは、スパークとScalaはScalaの缶の助けを学習し、書かれた言語を使用することですあなたのより深い理解スパーク。

Linuxの基礎知識

ビッグデータフレームワークは、通常のLinuxサーバーに展開、Linuxのいくつかの知識を持っていることが必要であるされています。

構築ツール

これは、自動化されたビルドツールは主にMavenをされているマスターする必要があります。ビッグデータのシーンでMavenは主に以下の三つの側面では、比較的一般的です。

1. JARプロジェクト管理パッケージでは、あなたがすぐにビッグデータアプリケーションの構築を支援します。

2.あなたのプロジェクトは、クラスタ環境を提出する実行時にJava言語やScalaの言語の開発を使用するかどうか、あなたがコンパイルパッケージにMavenを使用する必要があります。

3.ほとんどの大規模なデータソースの管理フレームワークを使用すると、インストールパッケージからソースコードをコンパイルする必要があるとき、あなたはMavenを使用する必要があり、Mavenのが行って使用しています。

学習フレームワーク

フレームワークの私たちの簡単な分類の概要:

ログ収集フレームワーク:水路、Logstash、Kibana

分散ファイルストレージシステム:HadoopのHDFS

データベースシステム:MongoDBの、HBaseの

分散コンピューティングフレームワーク:

・バッチフレームワーク:HadoopのMapReduceの

・ストリーム処理フレームワーク:嵐

・ミキシングプロセスフレームワーク:スパーク、FLINK

分析のフレームワーク:ハイブ、スパークSQL、FLINK SQL、豚、フェニックス

クラスタリソースマネージャ:HadoopのYARN

分散コーディネーションサービス:飼育係

データ移行ツール:Sqoop

タスクスケジューリングフレームワーク:アズカバン、Oozie

クラスタの展開と監視:Ambari、Clouderaのマネージャー

より多くの主流のビッグデータフレームワークは、上記されている上場、コミュニティは非常にアクティブで、学習リソースがより豊富です。はじめに、それは全体のビッグデータ・エコシステムの基礎となるものですので、他のフレームワークは、直接または間接的にHadoopに依存している、Hadoopのから学ぶことをお勧めします。そして、そのアプリケーションは、より広範であるので、スパークは、比較的早く現れ、あなたは、フレームワーク、スパークを計算学ぶことができるとFLINKは、より多くの主流のハイブリッド処理フレームワークでした。FLINK今日は多くの企業に好まれてきた優れた特性の数と、フレームの新世代の最も熱い混合プロセスです。どちらも、あなたの個人的な好みや実際の作業に応じて学習する必要があるかもしれません。

航空運賃や原油価格が手をプッシュしているアップ遊ぶためにいくつかの場所国内、天津裁判所の報酬多額の181万賞に古い財産リード上に依存している。山西省公安局、元次長は人生を宣告されました:犯罪組織を宿すの墓;四川省チベット道路によって引き起こされる土砂崩れ318国道チベットRenbuセグメントのトラフィックの中断(図)、人民解放軍の軍用機ステーションに、台湾の「警告」への応答を横暴な「反知識エリア」、北京結核は将来の新生児の身体検査に含まれるプロジェクトをチェックします。熱帯低気圧に応じて、瓊州海峡の影響ローロー旅客列車の停止中断し、発展改革委員会の報告書:中国の交通費が低レベルで、世界で53位にランク。

最初の層の都市が新たな規制の着陸の前夜に不動産業者を買うために狂気のシーンを上演;横領の容疑で起訴人員によるハング陳風神は21年、米国を逃げた人民日報海外版;今年は、北京海淀の保証は都市住宅の6つの地区50,000台まで構築するために:中国のグランドオープングローバルいい、北京、内モンゴル地区ペアで16件の郡これらの裕福;人民日報海外版:米国は世界がため息主張、世界のトップ500中国のスーパーコンピュータは、206台湾、米国のメディアを持っている:米国以上の速度の建設を、商務副大臣:中国私は、米国との貿易戦争を戦うためにしたくありません。

おすすめ

転載: www.cnblogs.com/1654kjl/p/12569064.html