Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践

本次分享主要包括了Spark shuffle 基于Alluxio的优化,以及基于Alluxio对于临时表的性能改进:1.在搜狗大量的数据分析, 知识图谱的数据制作使用Spark/SparkSQL来进行并行计算,大部分由于Spark On Yarn存在各类问题导致业务SLA水平仅为96%,结合Alluxio内存文件系统,我们将Spark业务的稳定性水平SLA提升到99.22%,广泛应用于数据分析以及高优先级业务中;2.同时在搜狗存在部分任务使用Hive/Spark临时表作为中间计算,使用Alluxio性能提升22.2%。目前Alluxio部署1000+机器上,运行了半年时间。

肖邦,搜狗大数据平台高级开发工程师,主要负责致力于Spark/Hive计算引擎的开发与性能优化,结合Alluxio内存文件系统提升计算稳定性等工作













原文https://www.slidestalk.com/s/Alluxio_Spark_Shuffle_Practice_at_Sogou

猜你喜欢

转载自blog.csdn.net/weixin_42852136/article/details/83589567