Требование: вычислить среднее значение в файле данных.
фон:
- У вас есть файл данных, содержащий ряд значений, по одному в строке, разделенных запятыми.
- Вы хотите использовать среду распределенных вычислений Apache Spark для чтения значений в файле данных и расчета их среднего значения.
Функциональные требования:
- Инициализируйте приложение Spark с конфигурацией и контекстом Spark.
- Считайте значения из файла данных и представьте каждую строку текста как RDD.
- Извлекайте значения из строк текста для численных расчетов.
- Вычислите среднее всех значений.
- Выведите вычисленное среднее значение.
- Закройте контекст Spark, чтобы освободить ресурсы.
входить:
- Файл данных, содержащий значения, разделенные запятыми.
Выход:
- Среднее значение, выведенное консолью.
package com.bigdata;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import java.text.DecimalFormat;
public class CalculateMeanForEachLineWithSpark {
public static void main(String[] args) {
SparkConf conf = new SparkConf()
.setAppName("CalculateMeanForEachLineWithSpark")
.se