11 | Spark вычисляет среднее значение каждой строки в файле данных

Требование: вычислить среднее значение в файле данных.

фон:

  • У вас есть файл данных, содержащий ряд значений, по одному в строке, разделенных запятыми.
  • Вы хотите использовать среду распределенных вычислений Apache Spark для чтения значений в файле данных и расчета их среднего значения.

Функциональные требования:

  1. Инициализируйте приложение Spark с конфигурацией и контекстом Spark.
  2. Считайте значения из файла данных и представьте каждую строку текста как RDD.
  3. Извлекайте значения из строк текста для численных расчетов.
  4. Вычислите среднее всех значений.
  5. Выведите вычисленное среднее значение.
  6. Закройте контекст Spark, чтобы освободить ресурсы.

входить:

  • Файл данных, содержащий значения, разделенные запятыми.

Выход:

  • Среднее значение, выведенное консолью.
package com.bigdata;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import java.text.DecimalFormat;

public class CalculateMeanForEachLineWithSpark {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf()
                .setAppName("CalculateMeanForEachLineWithSpark")
                .se

おすすめ

転載: blog.csdn.net/weixin_44510615/article/details/132642784