Spark -- 对DataFrame增加一列索引列(自增id列) - 代码天地

Spark -- 对DataFrame增加一列索引列(自增id列)

编程语言 2020-03-17 16:03:02 阅读次数: 0

向导

Spark DataFrame 添加自增id

利用RDD的 zipWithIndex算子
使用SparkSQL的function

Spark DataFrame 添加自增id

在用Spark 处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列，下面是几种实现方式。

利用RDD的 zipWithIndex算子

在这里插入图片描述

// 在原Schema信息的基础上添加一列 “id”信息
val schema: StructType = dataframe.schema.add(StructField("id", LongType))

// DataFrame转RDD 然后调用 zipWithIndex
val dfRDD: RDD[(Row, Long)] = dataframe.rdd.zipWithIndex()

val rowRDD: RDD[Row] = dfRDD.map(tp => Row.merge(tp._1, Row(tp._2)))

// 将添加了索引的RDD 转化为DataFrame
val df2 = spark.createDataFrame(rowRDD, schema)

df2.show()

+-----------+-----------+---+
|        lon|        lat| id|
+-----------+-----------+---+
|106.4273071|29.63554591|  0|
|  106.44104|29.51372023|  1|
|106.4602661|29.60211821|  2|
|106.4657593|29.45394812|  3|
+-----------+-----------+---+

使用SparkSQL的function

    import org.apache.spark.sql.functions._
    val inputDF = inputDF.withColumn("id", monotonically_increasing_id)
    inputDF.show

发布了66 篇原创文章 · 获赞 18 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/Aeve_imp/article/details/104923222

Spark -- 对DataFrame增加一列索引列(自增id列)

Spark DataFrame添加一列单调递增的id列

Spark DataFrame 添加ID列

spark将dataframe中的字段转成一列

pyspark 增加一列连续自增id

Spark Dataframe实现列转行

spark dataframe新增一列的四种方法

Spark DataFrame 添加索引列的三种方法

spark 将一列的值赋值给另外一列

Spark DataFrame 添加自增id

spark rdd根据某一列去重

Spark dataframe 多列合并成 vector

Spark DataFrame列的合并与拆分

Spark DataFrame列的合并和拆分

【Saprk】Spark DataFrame 列的类型转换

spark二次排序，两列数据第一列排，如果第一列相等，看第二列

Python将DataFrame增加一列

Spark mllib 列统计

Spark实现列转行

dataframe增加一列并给每行增加数据

Spark获取DataFrame中列的几种姿势--col，$，column，apply

spark计算dataframe中两列的相关系数

Spark RDD转DataFrame并更改列column的类型

spark sql 给dataframe列重命名的三种方式

mysql自增id列

spark 一个dataframe的两个列的编辑距离

Spark DataFrame将所有列的类型转换成另外一种类型

Spark SQL 实现列转行

mysql查询结果添加一列自增

DataTable增加一列

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)