2019年11月25日
夜09時13分53秒
GitHubのします。https://github.com/elephantscale/HI-labs/tree/master/hadoop-admin
Githubのオンします。https://github.com/markkerzner
作者のGithubます。https://github.com/sujee
英语好句:それは私達の両方からのHadoopコミュニティへの感謝の印微小であります
これは2人のHadoopコミュニティへの感謝の些細なシンボルです
なぜ私はHadoopのが必要なのですか?
3.1。Hadoopのは合理的なコストでビッグデータのためのストレージを提供します
1.Cloudera一つの研究では、企業は通常、単位当たり$ 25,000 $ 50,000費やすことを示しました
年間テラバイト。
Hadoopのでは、数千ドルにテラバイトあたりのコストの年間下落。
と
ハードウェアが安くなって、コストが減少し続けました。
3.2。Hadoopのは、新規またはより多くのデータをキャプチャすることができます
2. Aデータキャプチャ時には団体、それを格納するコストが高すぎるので、しないでください。
から
リーズナブルな価格で提供するHadoopストレージ、あなたは、このようなデータをキャプチャして保存することができます。
一つの例は、ログ上のサイトをクリックします。
これらのログの数が高くなり、その数が少ないように
これらの組織を捕獲しました。
さて、Hadoopので、あなたがキャプチャして保存することができますログ
3.3。Hadoopを使用すると、長いデータを保存することができます
データ・ストレージの量を管理するために、同社は、定期的に古いデータを削除します。
たとえば、のみログ
ログには、最後の3ヶ月以内に格納され、古いログを削除することができます。
使用Hadoopが、保存することができます
長い歴史のデータ。
これは、古い履歴データの新しい分析を可能にします。
たとえば、サイトから取得したログをクリックします。
数年前に、これらのログは非常に短い期間のために保存されています
これは、人気のあるWebページや他の静的データを計算してみましょう。
今のHadoopを使用するには、これらのクリックログを保存することができます
より長いです
3.4。Hadoopのは、スケーラブルな分析を提供します
我々はそれらを分析することができない場合は、すべてのデータを保存無意味。
Hadoopがないだけで、分散提供します
ストレージ、または分散処理。
私たちは、大量のデータの処理を並行できることをこれが意味。
Hadoopの計算フレームワークでは、地図の削減と呼ばれます。
私たちは、地図の縮尺が削減実証されています
ペタはバイト。
3.5。Hadoopが豊富な分析機能を提供します
ネイティブの地図は主要なプログラミング言語としてのJavaサポートを減らします。
このようルビー、Pythonなどの他の言語、
そして、Rを使用することもできます。
もちろん、カスタムコードを書くことはHadoopの地図への唯一の方法で分析されていないデータを削減しています。
高いレベル
あなたは地図を削減することができます。
例えば、ツールは英語や翻訳などの豚データフロー言語を呼び出すことができます
彼らは地図を削減入力します。
別のツールハイブは、SQLクエリを受け入れ、地図を削減使用してそれらを実行します。
ビジネスインテリジェンス(BI)ツールは、分析のより高いレベルを提供することができます。
いくつかのBIツールが動作することができます
HadoopのとHadoopの中に格納されたデータの分析。
サポートHadoopのBIツールのリストについては、これを参照してください
この章:第13章、Hadoopのビッグデータのためのビジネスインテリジェンスツール[52]