Spark项目问题记录

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010010664/article/details/87940119

项目:analysys-etl

Java模块

1、Base64问题

import org.apache.commons.codec.binary.Base64;这个包 版本之间存在问题。

替换为import org.apache.commons.net.util.Base64;

2、@data在idea中利用lombok插件,maven编译不通过(未解决)

直接生成get、set方法

3、Java和Android不能采用相同方法加密

不用语言编码不同

Scala模块

1、Scala调用Java方法,集合转化

需要额外的import scala.collection.JavaConversions._

2、load HDFS数据到hive

  • 需要将hive-site.xml这个文件拷贝到resource下

  • val spark = SparkSession.builder().master("local[2]").appName("HiveJoinMySql").enableHiveSupport().getOrCreate()

  • sparkSession.sql("load data inpath '" + sourcePath + "' overwrite into table stg." + table_name + " partition(day='" + pro_date + "',source='" + topic_id + "')")

  • 不要利用Spark的算子,执行load单机操作,采用Scala自身的方法即可

3、Spark对于集合包含对象的数据List<Table(String,String)>的处理

利用flatMap抹平

4、reduceByKey为Translation算子且注意数据类型

5、尽量减少Mysql链接的创建

6、Spark日志等级的设置

sparkContext.setLogLevel("DEBUG")

7、Spark累加器的使用(不推荐使用,因为任务如果发生重试,累加器会继续累加。可以直接使用count)

val accum_input = context.sparkContext.longAccumulator("Input Row Accumulator")

8、Spark处理.gz文件

如果处理.gz文件过大,由于.gz文件不能spilt,导致并行度不能调优,那么将会发生各种异常。建议先将文件进行repartition处理,调整partition个数。repartition内部实现HashPartition,文件大小平均分布。虽然需要进行一定时间的shuff,但可以提高并行度,而且解决了数据源的数据倾斜问题。partition的大小要小于2GB,不然可能会有 java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE 2GB 等异常。

9、Scala中java代码的调用

获取java方法的返回值后需要进行去空(.filter(_ != null))的处理

猜你喜欢

转载自blog.csdn.net/u010010664/article/details/87940119