【SparkSQL】DF缓存优化

参考:Caching Data In Memory

Spark SQL支持cache数据进内存来提高计算性能。
加入缓存的方式:
1)spark.catalog.cacheTable("tableName")
2)dataFrame.cache().
这样Spark SQL就可以直接从内存中取所需的列了。

释放内存:
spark.catalog.uncachetable(“tablename”)
emp.unpersist() 

猜你喜欢

转载自www.cnblogs.com/huomei/p/12098284.html
df