项目：analysys-etl

Java模块

1、Base64问题

import org.apache.commons.codec.binary.Base64;这个包版本之间存在问题。

替换为import org.apache.commons.net.util.Base64;

2、@data在idea中利用lombok插件，maven编译不通过（未解决）

直接生成get、set方法

3、Java和Android不能采用相同方法加密

不用语言编码不同

Scala模块

1、Scala调用Java方法，集合转化

需要额外的import scala.collection.JavaConversions._

2、load HDFS数据到hive

需要将hive-site.xml这个文件拷贝到resource下

val spark = SparkSession.builder().master("local[2]").appName("HiveJoinMySql").enableHiveSupport().getOrCreate()

sparkSession.sql("load data inpath '" + sourcePath + "' overwrite into table stg." + table_name + " partition(day='" + pro_date + "',source='" + topic_id + "')")

不要利用Spark的算子，执行load单机操作，采用Scala自身的方法即可

3、Spark对于集合包含对象的数据List<Table(String,String)>的处理

利用flatMap抹平

4、reduceByKey为Translation算子且注意数据类型

5、尽量减少Mysql链接的创建

6、Spark日志等级的设置
sparkContext.setLogLevel("DEBUG")
7、Spark累加器的使用（不推荐使用，因为任务如果发生重试，累加器会继续累加。可以直接使用count）
val accum_input = context.sparkContext.longAccumulator("Input Row Accumulator")
8、Spark处理.gz文件

如果处理.gz文件过大，由于.gz文件不能spilt，导致并行度不能调优，那么将会发生各种异常。建议先将文件进行repartition处理，调整partition个数。repartition内部实现HashPartition，文件大小平均分布。虽然需要进行一定时间的shuff，但可以提高并行度，而且解决了数据源的数据倾斜问题。partition的大小要小于2GB，不然可能会有 java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE 2GB 等异常。

9、Scala中java代码的调用

获取java方法的返回值后需要进行去空（.filter(_ != null)）的处理

Spark项目问题记录

Java模块

Scala模块

猜你喜欢