1.from pyspark.sqlインポートSparkSession
2.spark = SparkSession.builder.master( "スパーク://マスター:7077")\
.appName( 'compute_customer_age')\
.configを( 'spark.executor.memory'、 '2グラム')\
.enableHiveSupport()\
.getOrCreate()
3.完全な作成
4.データフレームを構築するために使用することができます|ハイブにアクセスするために使用
4.1DataFrame
documentDF = spark.createDataFrame([
( ")、).split( " "こんにちは、私は、Sparkについて聞いた"
私はJavaが" .split(」 ")、)、ケースクラスを使うことがしたい("
("ロジスティック回帰モデルはきちんとしています".split(" "))
]、["テキスト"])
4.2アクセスハイブ
SQL = "" "
"""
DF = spark.sql(SQL)
df.show()