17 | 스파크에서 map, flatMap, mapToPair 맵값의 차이점

Apache Spark에서 map, 및 는 RDD(Resilient Distributed Dataset)를 변환하는 데 사용되는 다양한 작업입니다 flatMap. 이러한 작업은 분산 데이터세트의 요소를 처리하는 데 사용될 수 있지만 해당 작업의 목적과 동작은 약간 다릅니다.mapToPairmapValues

주요 차이점과 해당 Java 코드 예는 다음과 같습니다.

  1. map: map연산은 RDD의 각 요소에 함수를 적용하고 함수 적용 결과가 포함된 새 RDD를 반환하는 데 사용됩니다. 일반적으로 일대일 변환을 수행하는 데 사용됩니다.
JavaRDD<Integer> inputRDD = ...; // 输入RDD
JavaRDD

おすすめ

転載: blog.csdn.net/weixin_44510615/article/details/132677591