Что такое YARN в Hadoop? Пожалуйста, объясните его роль и архитектуру.

Что такое YARN в Hadoop? Пожалуйста, объясните его роль и архитектуру.

YARN — важный компонент Hadoop. Это менеджер ресурсов и планировщик заданий, используемый для управления и планирования вычислительных ресурсов в кластере. Основная цель YARN — предоставить общую структуру управления ресурсами, чтобы Hadoop мог лучше поддерживать различные вычислительные модели и приложения.

Роль YARN заключается в эффективном управлении и распределении вычислительных ресурсов (ЦП, памяти и т. д.) в кластере для удовлетворения потребностей различных приложений. Эта цель достигается за счет нескольких основных компонентов:

  1. ResourceManager: ResourceManager является одним из основных компонентов YARN и отвечает за управление ресурсами и распределение всего кластера. Он получает запросы ресурсов от приложений и планирует и распределяет их на основе доступных ресурсов в кластере. ResourceManager также отвечает за мониторинг состояния узлов и контейнеров в кластере, а также обработку сбоев и отказоустойчивость.

  2. NodeManager: NodeManager — еще один основной компонент YARN. Он работает на каждом узле кластера и отвечает за управление вычислительными ресурсами узла. Он получает инструкции от ResourceManager, запускает и отслеживает контейнеры в соответствии с инструкциями. NodeManager также отвечает за мониторинг состояния работоспособности узлов и предоставление отчетов об использовании ресурсов узлов в ResourceManager.

  3. ApplicationMaster (диспетчер приложений): ApplicationMaster является основным компонентом каждого приложения, работающего на YARN. Он отвечает за связь с ResourceManager, получение выделенных ресурсов и координацию выполнения приложения. ApplicationMaster может динамически подавать заявки и освобождать ресурсы в соответствии с потребностями приложения, а также отслеживать ход и состояние приложения.

Благодаря совместной работе этих компонентов YARN реализует гибкую структуру управления ресурсами и планирования заданий, которая может поддерживать различные вычислительные модели и приложения, включая MapReduce, Spark, Hive и т. д.

Вот простой пример кода, демонстрирующий, как отправить задание MapReduce с помощью YARN:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class YarnExample {
    
    

  public static void main(String[] args) throws Exception {
    
    
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "YarnExample");
    job.setJarByClass(YarnExample.class);
    job.setMapperClass(MyMapper.class);
    job.setReducerClass(MyReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

В приведенном выше примере мы используем код Java для создания задания MapReduce через API Hadoop и отправки его в YARN для выполнения. Мы устанавливаем входной и выходной путь задания и указываем классы Mapper и Редюсер. Наконец, мы вызываем метод job.waitForCompletion(), чтобы дождаться завершения задания и вернуть соответствующий код выхода на основе результатов выполнения задания.

Здесь объясняются архитектура и роль YARN. Он реализует функции управления ресурсами и планирования заданий с помощью основных компонентов, таких как ResourceManager, NodeManager и ApplicationMaster, что позволяет Hadoop лучше поддерживать различные вычислительные модели и приложения. Благодаря YARN Hadoop может более эффективно использовать вычислительные ресурсы в кластере и повысить эффективность выполнения заданий и общую производительность.

Guess you like

Origin blog.csdn.net/qq_51447496/article/details/132758271