Apache Spark에서 map
, 및 는 RDD(Resilient Distributed Dataset)를 변환하는 데 사용되는 다양한 작업입니다 flatMap
. 이러한 작업은 분산 데이터세트의 요소를 처리하는 데 사용될 수 있지만 해당 작업의 목적과 동작은 약간 다릅니다.mapToPair
mapValues
주요 차이점과 해당 Java 코드 예는 다음과 같습니다.
map
:map
연산은 RDD의 각 요소에 함수를 적용하고 함수 적용 결과가 포함된 새 RDD를 반환하는 데 사용됩니다. 일반적으로 일대일 변환을 수행하는 데 사용됩니다.
JavaRDD<Integer> inputRDD = ...; // 输入RDD
JavaRDD