输出操作，结果保存到本地和输出到MySQL - 代码天地

输出操作，结果保存到本地和输出到MySQL

其他 2020-03-05 00:17:22 阅读次数: 0

saveAsTextFiles("")
结果写入到MySQL
service mysql start
mysql -u hadoop -p
use spark
create table wordcount(word char(20),count int(4));

#得安装python连接MySQL的模块PyMySQL
sudo apt-get update
sudo apt-get install python3-pip
pip3 -V
sudo pip3 install PyMySQL

东西和上篇博客一样就是加个保存的
#!/usr/bin/env python3
from__future__import print_function
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
if__name__==“main”:
if len(sys.argv)!=3:
print(“Usage:NetworkWordCountStateful.py<hostname.,port>”,file=sys.stderror)
exit(-1)
sc = SparkContext(appName = “PythonStreamingStatefulNetworkWordCount”)
ssc = StreamingContext(sc,1)
ssc.checkpoint(“file:///usr/local/spark/mycode/streaming/stateful/”)
initialRDD = sc.parallelize([(u’hello’,1),(u’world’,1)])#初始化RDD,u是unicode编码
#nc端发过来(hadoop,1)(hadoop,1)(spark,1)(spark,1)到这个updateStateByKey，先变成(hadoop,(1,1))(spark,(1,1)),然后先处理第一个把(1,1)传到这个updateFunc，把last_sum也传进来
def updateFunc(new_values,last_sum):
return sum(new_values)+(last_sum or 0)

def func(rdd):
repartitionedRDD=rdd.repartition(3)#不用打开很多数据库连接
repartitionedRDD.foreachPartition(dbfunc)

def dbfunc(records):
db = pymysql.connect(“localhost”,“hadoop”,“hadoop”,“spark”)
cursor =db.cursor()#指针
def doinsert§:
sql = “insert into wordcount(word,count) values(’%s’,’%s’)”%(str(p[0]),str(p[1]))
try:
cursor.execute(sql)
db.commit()
except:
db.rollback()
for item in records:
doinsert(item)

lines=ssc.socketTextStream(sys.argv[1],int(sys.argv[2]))#socketTextStream(“localhost”, 9999)
running_counts=lines.flatMap(lambda line:line.split(" ")).map(lambda x:(x,1)).updateStateByKey(updateFunc,initialRDD=initialRDD)
running_counts.pprint()
running_counts.foreachRDD(func)

ssc.start()
ssc.awaitTermination()

try to stay simple

发布了25 篇原创文章 · 获赞 0 · 访问量 367

私信关注

猜你喜欢

转载自blog.csdn.net/qq_45371603/article/details/104661665

输出操作，结果保存到本地和输出到MySQL

MapReduce输出结果保存到MySQL

Canvas输出图片并保存到本地

DataFrame输出操作

7.7 输出操作

python查询mysql结果输出到文件

mysql查询结果输出到文件

Matlab | 载入结构体数据集并将其中的字段数据输出到矩阵中并保存到本地

转 mysql查询结果输出到文件 mysql查询结果输出到文件

将print输出结果保存到txt文件

shell将命令输出结果保存到变量中

Java IO输出操作

Python基础——输出操作

29_mysql查询结果输出到文件

logstash输出到mysql

presto和hive将查询结果保存到本地的方法

使用Python中的log模块将loss输出到终端与保存到文件

PowerShell正则表达式匹配文件内容并输出到屏幕（或保存到文件）

如何改变输出方式（让printf输出结果保存到TXT文本中）

【C++】结果输出到文本：ofstream和ifstream

Structured Streaming 计算操作And输出操作

IO流的输入输出操作

Xshell 定制并自动输出操作日志

输入输出操作（二）

输入输出操作（一）

JavaScript基础之输出操作

python3.9的输出操作

hive查询结果保存到本地

VScode自由切换输出结果窗口，输出到“终端”和“调试控制台”

AvizMaster检测结果输出到文件

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)