大文件切分小文件

用户日志数量：5千万，用户数目5000

需求：按照用户id将文件拆分成5000个小文件，文件已用户id作为文件名称

scala代码如下：可以快速得出结果

package cn.cslc.sdwd.log_AH

import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}

/**
  * 大文件拆分小文件
  * 例如：用户行为日志：合计5千万条，用户数量5千，想要拆分为5000个以用户id为名字的文件
  * @Author :LPJ
  * @Date 2018/6/22 18:20
  */

//通过调用saveAsHadoopFile函数并自定义一个OutputFormat类
class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] {
  override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String =
    key.asInstanceOf[String]
}
object SplitBigFile {

  def main(args: Array[String]): Unit = {
    //设置日志打印级别
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
    val conf = new SparkConf().setAppName("SplitTest")
      .setMaster("local")
    val sc = new SparkContext(conf)
    //大文件输入路径
    val rdd = sc.textFile("F:\\work\\2018.6\\20180621logAH\\test\\AH",4)
    //获取用户id的数组
    val terminalID: Array[String] =
      rdd.map(line =>line.split(" ")(0)).distinct()
      .sortBy(line =>line.split(" ")(0))
      .collect()
    rdd
      //将日志数据转换为(key,value)样式
      .map(line=>(line.split(" ")(0),line))
      //调用内置函数，分区数目为用户id数组长度
      //指定输出路径，指定输出RDDMultipleTextOutputFormat，其他默认即可
      .partitionBy(new HashPartitioner(terminalID.length))
      .saveAsHadoopFile("F:\\work\\2018.6\\20180621logAH\\test\\result\\14"
        , classOf[String], classOf[String],
        classOf[RDDMultipleTextOutputFormat])
    sc.stop()
  }
}

spark输出压缩格式的文件

import org.apache.hadoop.io.compress.{GzipCodec, SnappyCodec}

保存格式为

.saveAsTextFile("F:\\work\\2018.6\\20180621logAH\\test\\result\\"+ter,classOf[GzipCodec])

此外通过对数据进行排序，增加reparation数目，分组等没有明显效果

大文件切分小文件

猜你喜欢