Что такое YARN в Hadoop? Пожалуйста, объясните его роль и архитектуру.
YARN — важный компонент Hadoop. Это менеджер ресурсов и планировщик заданий, используемый для управления и планирования вычислительных ресурсов в кластере. Основная цель YARN — предоставить общую структуру управления ресурсами, чтобы Hadoop мог лучше поддерживать различные вычислительные модели и приложения.
Роль YARN заключается в эффективном управлении и распределении вычислительных ресурсов (ЦП, памяти и т. д.) в кластере для удовлетворения потребностей различных приложений. Эта цель достигается за счет нескольких основных компонентов:
-
ResourceManager: ResourceManager является одним из основных компонентов YARN и отвечает за управление ресурсами и распределение всего кластера. Он получает запросы ресурсов от приложений и планирует и распределяет их на основе доступных ресурсов в кластере. ResourceManager также отвечает за мониторинг состояния узлов и контейнеров в кластере, а также обработку сбоев и отказоустойчивость.
-
NodeManager: NodeManager — еще один основной компонент YARN. Он работает на каждом узле кластера и отвечает за управление вычислительными ресурсами узла. Он получает инструкции от ResourceManager, запускает и отслеживает контейнеры в соответствии с инструкциями. NodeManager также отвечает за мониторинг состояния работоспособности узлов и предоставление отчетов об использовании ресурсов узлов в ResourceManager.
-
ApplicationMaster (диспетчер приложений): ApplicationMaster является основным компонентом каждого приложения, работающего на YARN. Он отвечает за связь с ResourceManager, получение выделенных ресурсов и координацию выполнения приложения. ApplicationMaster может динамически подавать заявки и освобождать ресурсы в соответствии с потребностями приложения, а также отслеживать ход и состояние приложения.
Благодаря совместной работе этих компонентов YARN реализует гибкую структуру управления ресурсами и планирования заданий, которая может поддерживать различные вычислительные модели и приложения, включая MapReduce, Spark, Hive и т. д.
Вот простой пример кода, демонстрирующий, как отправить задание MapReduce с помощью YARN:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class YarnExample {
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "YarnExample");
job.setJarByClass(YarnExample.class);
job.setMapperClass(MyMapper.class);
job.setReducerClass(MyReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
В приведенном выше примере мы используем код Java для создания задания MapReduce через API Hadoop и отправки его в YARN для выполнения. Мы устанавливаем входной и выходной путь задания и указываем классы Mapper и Редюсер. Наконец, мы вызываем метод job.waitForCompletion(), чтобы дождаться завершения задания и вернуть соответствующий код выхода на основе результатов выполнения задания.
Здесь объясняются архитектура и роль YARN. Он реализует функции управления ресурсами и планирования заданий с помощью основных компонентов, таких как ResourceManager, NodeManager и ApplicationMaster, что позволяет Hadoop лучше поддерживать различные вычислительные модели и приложения. Благодаря YARN Hadoop может более эффективно использовать вычислительные ресурсы в кластере и повысить эффективность выполнения заданий и общую производительность.