実行コードは以下のとおりである場合には
#コード:UTF-8 から pysparkのインポートSparkConf、SparkContext から pyspark.sqlのインポートSparkSession CONF。= SparkConf()setMaster(' 糸' ) SC = SparkContext(CONF = CONF) スパーク = SparkSession(SC) RDD = spark.read。 CSV(' /spark/gps/GPS1.csv ' ) 印刷rdd.count() 印刷 rdd.repartition(10000 ).count() 印刷 rdd.repartition(10000).collect() #报错火花のOutOfMemory:GCオーバーヘッド限界超過
コマンドを実行します。
火花提出--master糸bigdata.py
エラー内容
火花のOutOfMemory:GCオーバーヘッドの制限を超えました
数の実装には問題はなく、様々なパラメータが影響しません。しかし、実行時に収集、常に与えられています
原因分析
1.収集したデータは、メモリのオーバーフロードライバで得られ、リターンドライバを導きます
解決策は、メモリのドライバを高めることです
--master糸--executor-コア4 --driver・メモリの3G bigdata.pyをスパーク提出
2.あまりにも多くのエグゼキュータ・コア、ほとんどの時間につながる、複数のGC時間とコアの間でリソースの競合につながるがGCに費やされています
溶液は、コアの数を減らすことです
火花提出--master糸--executor-コア1 bigdata.py
参考文献:
https://blog.csdn.net/amghost/article/details/45303315