SparkSessionのpysparkを作成します

1.from pyspark.sqlインポートSparkSession

2.spark = SparkSession.builder.master( "スパーク://マスター:7077")\
.appName( 'compute_customer_age')\
.configを( 'spark.executor.memory'、 '2グラム')\
.enableHiveSupport()\
.getOrCreate()

3.完全な作成

4.データフレームを構築するために使用することができます|ハイブにアクセスするために使用

4.1DataFrame

documentDF = spark.createDataFrame([
( ")、).split( " "こんにちは、私は、Sparkについて聞いた"
私はJavaが" .split(」 ")、)、ケースクラスを使うことがしたい("
("ロジスティック回帰モデルはきちんとしています".split(" "))
]、["テキスト"])

4.2アクセスハイブ

SQL = "" "
"""
DF = spark.sql(SQL)
df.show()

 

おすすめ

転載: www.cnblogs.com/xiennnnn/p/11597635.html