Решения данных с искровым наклона

1, соответствующая степень параллелизма конечного редуктора

 

Применяемая сцена:

Если задача 100 Key · и , в частности большое количество данных, это может привести к ООМ или задачи , чтобы работать очень медленно, если в это время увеличивает степень параллелизма, можно разбить
на объем данных задач, например, исходная задача 100 разложения Основной задачи до 10, что может уменьшить объем данных для каждой задачи, что позволяет решать проблемы и задачи ОЫХ работать медленно.


2, для достижения двойного ключа случайной полимеризации (reducebykey)

 

Использование методов обработки префикса случайных чисел ключ, ключ стоимости вторичной полимеризации.
(1) первая полимеризация (частичная полимеризация): добавление случайного числа для каждого значения ключа, выполняя первую операцию полимеризации reduceByKey.
(2) Во- вторых полимеризации (полимеризации двойной): Значение ключа без префикса случайного числа, выполняя вторую полимеризацию reduceByKey, результаты полимеризации , в конечном счете , полученный в целом.
Применяемая сцена:

Случайный ключ подходит groupByKey, reduceByKey  случае данные ключа значения перекоса происходит , когда какой - либо другой оператор операции данных. Например, электрические системы объявлений нажмите, если пользователь нажмет сходимости по провинции, первоначальное значение ключа государства, если значение Value в некоторых провинциях , в частности, данные перекос происходит, может быть разделена на множество каждого ключа Ключ, ключ префикс плюс значение случайного разрыва чисел, группа составляет новые ключевые провинции значения random_, делает местную полимеризацию вызова reduceByKey, то случайный префикс удаляется, то значение по - прежнему сформированная Key State, а затем вызвать reduceByKey, полимеризация во всем мире.


3, после того, как первая наклонная ключи выборки отделить операцию регистрации

 

Применяемая сцена:

Два РДДА для регистрации операций, если существует серьезная рдд перекоса данных, то мы можем иметь серьезный RDDI данные наклонена ключ найден путем отбора проб, то первоначальный RDDL раскола в наклоненных данные RDDll C Key> а данные RDD12 с Key не наклонена), в RDDI л, RDD1 2 соответственно RDD2 Joi п операция, выполняемая, то результат операции выполняется соединение операции регистрации.

Принцип:

Если объем данных RDDL л в частности , в этом случае был в состоянии смягчить данные перекоса, из-за введения искрового ядра естественного параллелизма в одних и тех же данных в Key 1 RDDL была решена, так что исходный наклонена таким образом , чтобы достичь Ключ рассредоточены в различных целях задачи , облегчили данные перекос.
 

Опубликовано 159 оригинальных статей · вона похвала 75 · просмотров 190 000 +

рекомендация

отblog.csdn.net/xuehuagongzi000/article/details/104053052