[总结]基于Java的Spark、DF、RDD常用代码 - 代码天地

[总结]基于Java的Spark、DF、RDD常用代码

其他 2018-05-07 09:59:57 阅读次数: 3

在Java中创建一个新Row

import org.apache.spark.sql.RowFactory;

Row row = RowFactory.create("odd", i);

在Java中创建一个Seq

import scala.collection.JavaConversions;
import scala.collection.Seq;
import static java.util.Arrays.asList;

Seq<String> seq = JavaConversions.asScalaBuffer(asList("col_1","col_2"));

List<Row> data = new ArrayList<>();
for(int i=0;i<5;i++){
    List<String> mlist = new ArrayList<>();
    mlist.add("odd");
    mlist.add(String.valueOf(i));
    Row row = RowFactory.create(mlist.toArray());
    data.add(row);
}
StructType schema = DataTypes.createStructType(new StructField[]{
            createStructField("types", DataTypes.StringType, false),
            createStructField("nums", DataTypes.StringType, false)
        }
);



List<Row> data2 = new ArrayList<>();
for(int i=0;i<5;i++){
    List<String> mlist = new ArrayList<>();
    mlist.add("odd");
    mlist.add(String.valueOf(i));
    mlist.add(String.valueOf(5-i));
    Row row = RowFactory.create(mlist.toArray());
    data2.add(row);
}
StructType schema2 = DataTypes.createStructType(new StructField[]{
            createStructField("types", DataTypes.StringType, false),
            createStructField("nums", DataTypes.StringType, false),
            createStructField("ad", DataTypes.StringType, false),

        }
);


Dataset<Row> df = spark.createDataFrame(data, schema);
Dataset<Row> df2 = spark.createDataFrame(data2, schema2);
df.show();
df2.show();
Dataset<Row> df_join = df.join(df2, df.col("types").equalTo(df2.col("types"))
                               .and(df.col("nums").equalTo(df2.col("nums"))), "inner"    );
df_join.show();


df_join = df.join(df2, JavaConversions.asScalaBuffer(asList("nums","types")));
df_join.show();

猜你喜欢

转载自my.oschina.net/u/2996334/blog/1788795

[总结]基于Java的Spark、DF、RDD常用代码

Spark RDD 常用算子总结

spark rdd 和 DF 转换

RDD,Spark SQL,DF分组

RDD,Spark SQL,DF排序

RDD,Spark SQL,DF群组统计

Spark编程方式RDD转DF

Spark RDD 常用算子

Spark RDD操作总结

SPARK总结之RDD

【Spark】RDD创建总结

spark RDD算子总结

一零一二、Spark- RDD-DF-DS 相互转换

spark教程(11)-RDD-DF-DS 汇总 Spark中RDD、DataFrame和DataSet的区别

spark 的kv 类型的Rdd 在java代码中显示

08、Spark常用RDD变换

Spark RDD常用算子整理

Learning Spark——RDD常用操作

spark RDD常用算子（一）

spark RDD常用算子（三）

spark RDD常用算子（二）

Spark之RDD常用操作

Spark-RDD常用算子

【Spark】Spark常用方法总结2-RDD的使用（Python版本）

SparkSQL之实现RDD、DF与DS转换代码演示

10. spark源代码分析（基于yarn cluster模式）- 聊聊RDD和Depedency

基于java api的spark常用算子

spark笔记之RDD常用的算子操作

Spark Core核心----RDD常用算子编程

Spark RDD-1-常用算子

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)