【Spark系列之一】本地测试spark的api遇到的问题
如果只是本地测试spark的各种api的使用,是不需要下载安装任何spark、Hadoop的。直接引入maven依赖就可以了。
- 看下面一段代码:
public static void mapPartition(){
SparkConf config = new SparkConf().setMaster("local").setAppName("map-partition");
JavaSparkContext context = new JavaSparkContext(config);
context.setLogLevel("ERROR");
List<Integer> list = Arrays.asList(2, 3, 5, 1, 21);
JavaRDD<Integer> dataRDD = context.parallelize(list, 2);
JavaRDD partRDD = dataRDD.mapPartitions(new FlatMapFunction<Iterator<Integer>, Integer>() {
@Override
public Iterator<Integer> call(Iterator<Integer> integerIterator) throws Exception {
int sum = 0;
while (integerIterator.hasNext()){
// 可以知道将数据分为了两个区,[2, 3]及[5, 1, 21]
System.out.println("aaa== " + integerIterator.hashCode());
//System.out.println(integerIterator.next()); // 不清楚这里为什么会报错
sum += integerIterator.next();
}
List<Integer> list1 = new ArrayList<>(2);
list1.add(sum);
return list1.iterator();
}
});
List resultList = partRDD.collect();
System.out.println(resultList); // [5, 27]
context.close();
}
出现的问题:
- Spark2.4.0版本context.parallelize(list)出错,报数组越界问题。换成2.3.0版本没问题。
- 看代码中注释的那行代码:System.out.println(integerIterator.next());竟然报错…不清楚什么问题。