Distcp はクラスタ間でファイルをコピーできません。ソースとターゲットのブロック サイズが異なります。コピー中にブロック サイズを維持するには、-pb を使用してください。

原因: java.io.IOException: hdfs://10.48.0.101/ucd-prod-vdp-usdp/user/hive/warehouse/ods.db/ods_dgs_dcs_tth_if_di/dt=20230716/000001_0 と hdfs:// の間のチェックサムの不一致ucd-test-vdp-usdp/ucd-test-vdp-usdp/user/hive/warehouse/ods_prod.db/.distcp.tmp.attempt_1689578105872_1498_m_000017_2.1690257654635。ソースとターゲットのブロックサイズが異なります。
コピー中にブロックサイズを保持するには、-pb を使用します。ブロックサイズまたはファイルシステムが異なる場合は、-Ddfs.checksum.combine.mode=COMPOSITE_CRC を介してファイルレベルのチェックサム検証を選択できます。または、-skipcrccheck を使用してチェックサムチェックを完全にスキップすることもできます。

ここに画像の説明を挿入

distcp コマンドは、大規模なデータ クラスター間でデータをコピーするためによく使用されるコマンドですが、異なるクラスター間でブロック サイズが一致しないため、コマンドの実行が失敗することがあります。エラーは次のとおりです

ソースとターゲットのブロック サイズが異なります。コピー中にブロック サイズを保持するには、-pb を使用してください
1
原因分析
Distcp は、デフォルトではファイルのコピー時に元のブロック サイズを記録しないため、元のファイルの block.size が異なる場合、検証は失敗します。 128M ではありません。 -pb パラメータ。
1. HDFS は書き込み時のブロック サイズを設定し、デフォルトは 128M ですが、一部のコンポーネントまたはビジネス プログラムによって書き込まれるファイルは 8M など、128M にならない場合があります。


<name>dfs.blocksize</name>
<value>134217728</value>

图1 某些组件或者业务程序写入的文件大小

2.distcp 从源集群读文件后写入新集群,默认是使用的MapReduce任务中的dfs.blocksize,默认128M。
3.在distcp写完文件后,会基于块的物理大小做校验,因为该文件在新旧集群中block.size不一致,因此拆分大小不一致,导致校验失败。
如以上文件,在旧集群是17.9/8MB = 3个block, 在新集群 17.9/128M = 1个block. 因此实际在磁盘的物理大小因分割而导致校验失败。

解决办法
distcp时,在地址前增加-pb参数。该参数作用为distcp时候保留block大小,确保新集群写入文件blocksize和老集群一致。
distcp时保留block大小

おすすめ

転載: blog.csdn.net/qq_43688472/article/details/131924031