HDFS Hadoop позволяет избежать сетевых штормов, вызванных выходом из строя узлов
Три параметра автономных параметров узла управления штормом RPC являются параметрами в hdfs-site.xml.Подробную информацию можно найти на официальном сайте apache Hadoop.Фактически скорость репликации блоков определяется двумя аспектами.Одним из них является скорость задач распределения именных узлов, а другой — Первое можно понимать как вход, а второе – как выход.
1. Параметры входа : управление распределением задач с уровня узла имени. Это изменение параметра должно перезапустить узел имени и не требует перезапуска узла данных.
dfs.namenode.replication.work.multiplier.per.iteration
这个参数apache hadoop默认值2,cdh集群默认值10
Этот параметр определяет количество блоков, которые могут быть реплицированы для каждого DN, когда NN и DN отправляют список задач в тактовом сигнале (3 секунды). Например, если в кластере 500 узлов и для этого значения установлено значение 10, то количество блоков данных, которые именный узел может отправить узлу данных за один такт, составит 10*500=5000 блоков. Если узел отключен/выведен из эксплуатации и необходимо скопировать 800 000 блоков, сколько времени потребуется узлу имени, чтобы распределить задачу по копируемым блокам на узле данных?
Результат расчета лимита:
任务分发时间=待复制block总数/(集群活跃dn*参数值)*心跳时间
time=800000/(500*10)=160次心跳*3s/每次心跳=480s=8分钟
То есть чем больше нод, тем быстрее будут распределяться задачи, а скорость распределения пропорциональна количеству нод и этому параметру.
2. Параметры экспорта : по сравнению с приведенным выше элементом управления распределением задач наноузла, следующие два используют контроль уровня узла данных, и эти два параметра также необходимо перезапустить узел имени.
1.dfs.namenode.replication.max-streams
apache hadoop默认值是2,cdh集群默认20。
Смысл этого параметра заключается в управлении максимальным количеством потоков для репликации данных узлом datanode.Из вышесказанного мы знаем, что приоритет репликации блока делится на 5 типов. Этот параметр управляет отключением репликации блоков с наивысшим приоритетом. То есть, помимо ограничения потока репликации с наивысшим приоритетом
2.dfs.namenode.replication.max-streams-hard-limit
这个值apache hadoop默认值2,cdh集群默认值40
Смысл этого параметра заключается в контроле количества потоков, копируемых всеми приоритетными блоками узла данных, включая самый высокий приоритет; обычно вышеуказанный и два вышеуказанных параметра используются вместе друг с другом.