大数据测试：利用python将两张表链接 - 代码天地

大数据测试：利用python将两张表链接

其他 2020-01-31 13:12:53 阅读次数: 0


from pyspark.sql import SparkSession
from pyspark.sql.types import *
import os


def getUser(spark,path):
    struct1 = StructType([
        StructField("user", StringType(), True),
        StructField("vedios", StringType(), True),
        StructField("id", IntegerType(), True)
    ])
    df = spark.read.csv(path, schema=struct1, sep="\t", header=True)
    df.createOrReplaceTempView("users1")
    df = spark.sql("select * from users1")
    return df


def getMovies(spark,path):
    df = spark.read.csv(path, header=True)
    df.createOrReplaceTempView("movies")
    df = spark.sql("select * from movies ")
    return df


if __name__ == '__main__':
    os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk1.8.0_211'
    print(os.path)
    spark = SparkSession \
        .builder \
        .appName("Python Spark SQL basic example") \
        .config("spark.some.config.option", "some-value") \
        .getOrCreate()
    path_user = "C:/Users/Administrator/Desktop/guiliVideo/user/2008/0903/user.txt"
    path_movies="C:/Users/Administrator/Desktop/vedios.txt"
    df1=getUser(spark,path_user)
    df2=getMovies(spark,path_movies)
    df3=df1.join(df2,df1.user==df2.uploader,how='inner')
    df3.createOrReplaceTempView('table1')
    df4=spark.sql('select * from table1 limit 10')
    df4.show()

飞翔的大黑壮(猫猫)

发布了108 篇原创文章 · 获赞 268 · 访问量 19万+

私信关注

猜你喜欢

转载自blog.csdn.net/pingsha_luoyan/article/details/97917526

大数据测试：利用python将两张表链接

大数据测试：利用spark将表中数据拆分

大数据测试：利用spark将二进制文件转换为json格式

python大数据测试学习总结

大数据测试

同事每天都买两张彩票，利用Python抓取彩票中奖数据，可笑至极！

python利用pandas对两张excel表合并（二）

python利用pandas对两张excel表合并（一）

python利用pandas对两张excel表合并（三）

mysql 将两张表的count 数据相加

大数据测试类型&大数据测试步骤

大数据测试方法

大数据测试策略

大数据测试要点

大数据测试指标

大数据测试3

什么是大数据测试？

前端将两张图片合为一张

python opencv 两张图叠加

oracle 对比两张表数据

Mysql 对比两张表数据

sqlserver 两张表数据导入

两张表数据模糊查询

大数据测试技术研究

大数据测试：功能和性能

大数据测试要点总结

做好大数据测试

收藏这两张图，大数据学习路上不迷茫

python opencv 将两张图以一定的透明度融合

使用python将取两张excel表格的差集并输出到另外的表格

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

timesten性能问题分析

hdu1017A Mathematical Curiosity

利用FragmentTabHost和ViewPager来实现可滑动切换的页面

哪里找卖百度云资源

大数据技能图谱

PHP设计模式（5）—— 观察者模式

python list删除元素是要注意的坑点

TPM简介

并查集擒贼先擒王//解密犯罪团伙

码农也要修身

每日归档

更多

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)