Каталог статей
1. Аккумулятор
В Spark аккумулятор — это специальная переменная, используемая для накопления результатов всех задач в общую переменную. Аккумуляторы в Spark особенно хорошо подходят для операций «суммирования», таких как подсчет и суммирование.
Основные характеристики и области применения аккумуляторов следующие:
-
Глобальный : Аккумулятор — это переменная, используемая всеми задачами. Каждая задача может добавлять данные в аккумулятор, но только драйвер может получить доступ к значению аккумулятора.
-
Параллелизм и эффективность : Spark гарантирует, что каждый аккумулятор обновляется только один раз для каждой задачи, что позволяет избежать ненужных накладных расходов на связь.
-
Отказоустойчивость : если задача не удалась, Spark автоматически пересчитает и обновит значение аккумулятора.
-
Часто используется для отладки и мониторинга . Аккумуляторы можно использовать для простого мониторинга и отладки состояния приложения Spark.
Обратите внимание, что обновление аккумулятора выполняется в операциях действия (например,col