【Spark系列之一】本地测试spark的api遇到的问题

【Spark系列之一】本地测试spark的api遇到的问题

如果只是本地测试spark的各种api的使用,是不需要下载安装任何spark、Hadoop的。直接引入maven依赖就可以了。

  1. 看下面一段代码:
public static void mapPartition(){
        SparkConf config = new SparkConf().setMaster("local").setAppName("map-partition");
        JavaSparkContext context = new JavaSparkContext(config);
        context.setLogLevel("ERROR");

        List<Integer> list = Arrays.asList(2, 3, 5, 1, 21);
        JavaRDD<Integer> dataRDD = context.parallelize(list, 2);

        JavaRDD partRDD = dataRDD.mapPartitions(new FlatMapFunction<Iterator<Integer>, Integer>() {
            @Override
            public Iterator<Integer> call(Iterator<Integer> integerIterator) throws Exception {
                int sum = 0;
                while (integerIterator.hasNext()){
                    // 可以知道将数据分为了两个区,[2, 3]及[5, 1, 21]
                    System.out.println("aaa== " + integerIterator.hashCode());
                    //System.out.println(integerIterator.next());  // 不清楚这里为什么会报错
                    sum += integerIterator.next();
                }
                List<Integer> list1 = new ArrayList<>(2);
                list1.add(sum);
                return list1.iterator();
            }
        });

        List resultList = partRDD.collect();
        System.out.println(resultList);  // [5, 27]
        context.close();
    }

出现的问题:

  1. Spark2.4.0版本context.parallelize(list)出错,报数组越界问题。换成2.3.0版本没问题。
  2. 看代码中注释的那行代码:System.out.println(integerIterator.next());竟然报错…不清楚什么问题。

猜你喜欢

转载自blog.csdn.net/weixin_42273782/article/details/86541424