良いプログラマカフカの訓練についての大規模データのいくつかの重要な質問を共有します

  良いプログラマビッグデータのトレーニングで共有いくつかの重要な問題カフカの:

  コンセプト1.segment

  パーティション毎の複数のトピックは、セグメントのサイズは、構成ファイルカフカで提供することができるセグメントが複数存在している場合、同じサイズのセグメントであり、各セグメントは、インデックスファイルを複数有しており、対応しますデータファイル

  2.データ・ストレージ・メカニズムは?(より高速なデータ書き込みの理由)

  まず、オペレーティングシステム(Linux)のキャッシュ(ページキャッシュ)へのデータ、データを受信するブローカー

  ページキャッシュは、できるだけ多くの空きメモリを使用して、オペレーティングシステムとアプリケーションの間で可能な限り減らすためにキャッシュ技術を複製sendfileの使用、データのシーケンシャル書き込み速度の方法で書き込まれたデータを書き込む際に使用されるだろう600メートル/秒まで

  3.consumerロードバランシングは、問題を解決する方法ですか?

  同じ場合には時間がコンシューマ・グループの数が変更され、それが最初のパーティション番号を開始する個人消費を得る、カフカのロードバランシングをトリガーして、消費者支出、ハッシュコード値を法にパーティションの数を計算します、私は最終的にポイントのパーティション番号を開始しますエリアの数

1、配布ポリシーデータ

  カフカのデフォルトは、独自のパーティ(DefaultPartitioner)パーティションを呼び出し、あなたはまた、パーティションをカスタマイズすることができ、カスタムのパーティションは、パーティションの方法を達成するためにパーティショナ品質を達成するために必要

2、カフカは、データが失われないことを確実にする方法ですか?カフカのデータを受信した後は、コピーの指定された数によって作成されたトピックに応じて保存され、データのコピーはカフカによって同期されている所有し、マルチコピー機序は、データのセキュリティを保証します

グローバルデータは、それを注文した中で3、カフカは、そのトピックを確保することができます

  カフカは、パーティション間で、秩序あるパーティションを行うことができ順不同です

  どのように世界的には、それを注文したのですか?最も簡単な方法は、パーティションを作成することであるパーティションの指定した数を1つのトピックです

4、あなたがしたい場合は過剰消費が消費されたデータ

  1.別のグループ。

  2.データいくつかの構成では、ラインは、特定のクラスタ領域で処理されたデータの大量次に、ミラーに同期するように生成することができます。


おすすめ

転載: blog.51cto.com/14479068/2431090