Hadoopのを概説する一般的な問題は何ですか

最近、ジュニアパートナーへの新しい多くは、Hadoopの一般的な問題は、何かシンプルで小型シリーズは、以下の仕上げ誰もが共有するために、今、私たちは小さなパートナーを支援したいものを尋ねました。

1、そして今、企業はHadoopのバージョン1.xを使用するか、主から2.x?

現在、百度、テンセント、アリ・ベースのインターネット企業は、Hadoopのに基づいています。

ベースバージョンとしてAXは、当然のことながら、各企業は、2番目の開発は、異なるクラスタのニーズを満たすためにカスタマイズすることになります。

BXが正式に内部Baiduの中に、またはメイン1.Xに使用されていないが、Baiduは1.Xの問題のために(HadoopCがシステムを展開++)システムHCEを開発しました。

補足:Hadoop2.xなどJingdongは、他の多くの企業アプリケーション、インチ

2、後でそれの大部分のアルゴリズムアカウント、アルゴリズムがどの程度把握し、作業の大きなデータ側面に従事したいですか?

[ビッグデータは、学習教材に収集方法を開発するために:Q基522189307を学ぶためにビッグデータ交換技術を追加し、私的な手紙には、管理者が自由に受け取ることができます

あなたはフィールドに関連する大規模なデータに従事したい場合は、まず第一に、そして、使用するツールとしてのHadoopには、最初に使用する方法を学ぶ必要があります。Hadoopのは、ソースコードレベルの詳細に深く行くことができません。

その後、アルゴリズムの理解で、しばしば達成するために、分散データマイニングアルゴリズムを設計する必要がありますが、あなたはまだ、このような一般的に使用されるk平均クラスタリングとして、アルゴリズム自体を理解する必要があります。

3、ここで実行し、主要なHadoopのプログラマは荷造りで嵐より多くの火が、Googleはまた、クラウドデータフローをリリースし、後でメインのHadoopよりHDFSと糸を学ぶべきである、とした後、スパークとだけ普通聞かせするためのインタフェースを提供しますプログラマは、ClouderaのやGoogleのように、同じを使用できますか?

最も重要なのは、複数の学生、あなたが心配、Hadoopのスパーク、ストロムは何も悪いが存在しないことを良いとする、さまざまな問題を解決するために、またはHadoopの-1.Xの主流のバージョンへのHadoopを学ぶことです、2.Xです糸フレームワークは、十分に理解されます。あなたはHadoopの独自の研究開発提案を探している場合は、Hadoopのアプリケーション関連の研究開発をしている場合は、ライン上で主流の1.Xを見てください。

4は、白が尋ねる、大規模データ処理ソフトウェアはとにかくサーバーにインストールされ、どのような効果は、大規模なデータのプログラム、クラスタリング、運用、保守作業、それの包囲ライオンやコンテンツに属しているのでしょうか?

伝統的なプログラムは、単一のマシン上で実行することができ、そしてしばしば、hadoopmapreduceなどの分散プログラミング・フレームワークを使用して書かれている大規模なデータ処理は、唯一のHadoopクラスタのプラットフォーム上で実行することができます。

運用・保守のための責任:クラスタの安定性と信頼性を確保するために、機械

システム自体のHadoopの開発:、Hadoopのクラスタのパフォーマンスを向上させる新機能を追加します。

ビッグデータアプリケーション:大量データ処理や関連するニーズを達成するためのツールとしてのHadoop。

5の後、多くの小さなファイルに大きなファイルを分割し、どのように効果的にHadoopでこれらの小さなファイルに対処するために行うか、そしてどのように負荷分散として各ノードを作るには?

。どのように効果的にHadoopでこれらの小さなファイルに対処するには、行って?

大規模データを扱うのHadoopは非常に有効であるが、システムリソースのオーバーヘッドは、このような問題のために、あまり効率的であるには余りにも大きくなりますので、小さな多数のファイルを扱うときに、小さなファイルは、そのようなSequcenFileの使用など、大容量のファイルとしてパッケージ化することができますそのようなキーのファイルの署名など​​のファイル形式は、ファイル自体の内容は、値のため、ファイルレコードSequcenFileで書かれている、ように、複数の小さなファイルSequcenFileファイル形式によって、あなたができる大容量のファイルには、ファイルはそれぞれの小さなファイルSequcenFileにマップされる前に記録。

B。どのようにロードバランシングなどの各ノードを作るには?

Hadoopクラスタのロードバランシングでは重要であり、このような状況がしばしばあるため、ユーザデータの偏在を招き、ジョブは非ローカルタスクを実行するときになるように、スロットの数は、実際に各ノードのリソースのバランス配分で算出し、あなたは組み込みのバランサーのHadoopスクリプトコマンドを使用することができ、したがって、不均一なポイントは、ユーザデータのバランスの取れた分布で解決する、クラスタの負荷が生じすることはバランスがとれていないで、データ伝送がたくさんあるでしょう。

リソーススケジューリングの不均衡は、特定のスケジューリングとジョブ割当メカニズムを検討する必要性に起因してください。

おすすめ

転載: blog.csdn.net/fdfsdrjku/article/details/92720380