ダンタックスパラメータチューニング

ダンタックスパラメータチューニング

1.スピードチューニング

ここに画像の説明を挿入します
データ スキューが発生する可能性があります
。処理速度が異なると、ジョブが非常に遅くなる可能性があります。

たとえば、合計速度制限は 1 秒あたり 100 レコード、最初のチャネル速度は 1 秒あたり 99 レコード、2 番目のチャネル速度は 99 レコード/秒です。 1 秒あたり 99 レコード。1 レコードで、それぞれ最大 100 レコードになります。各チャネルが 10,000 個のデータを処理する必要があると仮定すると、最初のチャネルは非常に早く処理され、2 番目のチャネルはより長い時間がかかります。 Hadoop でのデータ スキュー。この問題を回避するには、単一チャネルのレート制限を構成する必要があります。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

メモリの最適化

Datax ジョブの同時チャネル数を増やすと、datax はデータ交換チャネルとしてより多くのデータをメモリにキャッシュするため、メモリ使用量が大幅に増加します。たとえば、チャネルには一時的なデータ交換用のバッファとしてバッファが存在し、一部のリーダーやライターにもバッファが存在しますが、OOM やその他のエラーを防ぐために、JVM ヒープ メモリを増やす必要があります。

  1. メモリを4Gまたは8Gに設定することをお勧めします
  2. 開始時に対応するパラメーターを追加することをお勧めします: python datax/bin/datax.py --jvm="-Xms8G -Xmx8G" /path/to/your/job.json

Acho que você gosta

Origin blog.csdn.net/m0_37759590/article/details/132710141
Recomendado
Clasificación