HDFS Hadoop позволяет избежать сетевых штормов, вызванных выходом из строя узлов

HDFS Hadoop позволяет избежать сетевых штормов, вызванных выходом из строя узлов


Три параметра автономных параметров узла управления штормом RPC являются параметрами в hdfs-site.xml.Подробную информацию можно найти на официальном сайте apache Hadoop.Фактически скорость репликации блоков определяется двумя аспектами.Одним из них является скорость задач распределения именных узлов, а другой Первое можно понимать как вход, а второе – как выход.
1. Параметры входа : управление распределением задач с уровня узла имени. Это изменение параметра должно перезапустить узел имени и не требует перезапуска узла данных.

dfs.namenode.replication.work.multiplier.per.iteration 
这个参数apache hadoop默认值2,cdh集群默认值10

Этот параметр определяет количество блоков, которые могут быть реплицированы для каждого DN, когда NN и DN отправляют список задач в тактовом сигнале (3 секунды). Например, если в кластере 500 узлов и для этого значения установлено значение 10, то количество блоков данных, которые именный узел может отправить узлу данных за один такт, составит 10*500=5000 блоков. Если узел отключен/выведен из эксплуатации и необходимо скопировать 800 000 блоков, сколько времени потребуется узлу имени, чтобы распределить задачу по копируемым блокам на узле данных?
Результат расчета лимита:

任务分发时间=待复制block总数/(集群活跃dn*参数值)*心跳时间
time=800000/(500*10)=160次心跳*3s/每次心跳=480s=8分钟

То есть чем больше нод, тем быстрее будут распределяться задачи, а скорость распределения пропорциональна количеству нод и этому параметру.

2. Параметры экспорта : по сравнению с приведенным выше элементом управления распределением задач наноузла, следующие два используют контроль уровня узла данных, и эти два параметра также необходимо перезапустить узел имени.

1.dfs.namenode.replication.max-streams

apache hadoop默认值是2,cdh集群默认20。

Смысл этого параметра заключается в управлении максимальным количеством потоков для репликации данных узлом datanode.Из вышесказанного мы знаем, что приоритет репликации блока делится на 5 типов. Этот параметр управляет отключением репликации блоков с наивысшим приоритетом. То есть, помимо ограничения потока репликации с наивысшим приоритетом

2.dfs.namenode.replication.max-streams-hard-limit

这个值apache hadoop默认值2,cdh集群默认值40

Смысл этого параметра заключается в контроле количества потоков, копируемых всеми приоритетными блоками узла данных, включая самый высокий приоритет; обычно вышеуказанный и два вышеуказанных параметра используются вместе друг с другом.

Supongo que te gusta

Origin blog.csdn.net/qq_43688472/article/details/132567841
Recomendado
Clasificación