データフレーム/変換でパンダと比較してスパークデータフレーム

億、声明

スパークnumpyのとパンダは、限り、あなたがインストールされ、プログラムを実行することができます

まず、なぜあなたはpandas.dataframeでデータフレームのスパークプログラムを変更したいです

かつての缶が動作のみスタンドアロン、後者はクラスタを実行することができます

第二に、比較

このポストに直接ジャンプ「データフレームは対照的に、スパークやパンダ」との書き込みも

第三に、変換

スパーク - >パンダ パンダ - >スパーク
pandas_df = spark_df.toPandas() spark_df = spark.createDataFrame(pandas_df)

:パンダはtoPandas()は分散型バージョンに、道のスタンドアロンバージョンであること、道のスタンドアロンバージョンであるため、

import pandas as pd
def _map_to_pandas(rdds):
    return [pd.DataFrame(list(rdds))]
    
def topas(df, n_partitions=None):
    if n_partitions is not None: df = df.repartition(n_partitions)
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    df_pand = pd.concat(df_pand)
    df_pand.columns = df.columns
    return df_pand
    
pandas_df = topas(spark_df)

参考ボーエン:
「パンダのデータ変換とスパーク」
データフレームHuzhuanのパンダとスパーク「」

Spark2.xの4、SparkContextはSparkSession、全体スパーク表彰台に統合されています

参考ボーエン:
「スパークコア記事-SparkContext」
「スパーク2.0シリーズSparkSession説明」

公開された131元の記事 ウォン称賛81 ビュー60000 +

おすすめ

転載: blog.csdn.net/weixin_43469047/article/details/104010581