集群运行PySpark代码 - 代码天地

集群运行PySpark代码

其他 2018-06-14 12:07:18 阅读次数: 2

编写python代码（wordcount.py）

import sys
from operator import add
from pyspark.sql import SparkSession

if __name__ == "__main__":

    spark = SparkSession.builder.appName("PythonWordCount").getOrCreate()
    lines = spark.read.text('hdfs:///user/asmp/flume_test/word.txt').rdd.map(lambda r: r[0])
    counts = lines.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add)
    output = counts.collect()
    for (word, count) in output:
        print("%s: %i" % (word, count))

    spark.stop()

数据集word.txt

hello word1 word2 word2 
hello2 word1 word2 word2

集群运行：shell>spark-submit ./wordcount.py

运行结果：

猜你喜欢

转载自blog.csdn.net/lhxsir/article/details/79884453

集群运行PySpark代码

集群上运行pyspark的坑———调用（bash）

【pyspark】pyspark提交python代码至yarn运行

集群运行SparkR代码

kafka pyspark（集群zookeeper）

pyspark：集群环境实战

pyspark的RDD代码纪录

pyspark—WordCount代码

pyspark 提交文件到集群

0485-如何在代码中指定PySpark的Python运行环境

pyspark运行测试及笔记整理

从0开始学pyspark（一）：ubuntu pyspark运行环境配置

在pyspark中调用scala代码

pyspark 变量分箱代码实现

pyspark：连接spark集群Windows环境搭建

运行yarn宕机（pyspark任务，通过O…

远程运行pyspark程序报错的解决

pyspark对应的scala代码PythonRDD对象

pyspark的join.py代码记录

pyspark 程序头与程序提交集群命令

集群上如何跑pyspark程序--Running Spark Python Applications

在Hadoop集群中用PySpark处理数据的知识详解

如何在Jupyter里以不同的运行模式使用Pyspark

在Hadoop Yarn 运行 pyspark 的一些问题

jupyter notebook远程连接服务器运行pyspark

spark1.6学习（二）——独立的python程序运行pyspark

0483-如何指定PySpark的Python运行环境

Linux安装Spark+pyspark，运行wordCount程序

windows运行pyspark问题之Python worker failed to connect back

PySpark数据分析基础：pyspark.sql.SparkSession类方法详解及操作+代码展示

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)