spark中rdd转成python中的DataFrame格式

首先创建一个spark环境下的dataframe
spark_df = spark.createDataFrame(filerdd.collect(),col)
期中第一个参数一般为一个2维列表或者数组,但是必须是rdd的动作结果。
第二个参数为列名,是一个列表或是rdd的动作的结果
然后直接转成python形式的dataframe就可以了,后面就可以进行熟悉的python环境的dataframe了
pda_df = spark_df.toPandas()

发布了49 篇原创文章 · 获赞 13 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_44166997/article/details/100166416