【pyspark】二 给dataframe添加列并自动编号 注意事项

版权声明:转载请标明出处。 https://blog.csdn.net/u010720408/article/details/89191332
pyspark的自动编号:pyspark.sql.functions.monotonically_increasing_id

from pyspark.sql.functions import monotonically_increasing_id
tempdf_index=tempdf.withColumn(“id”,monotonically_increasing_id())
tempdf_index.limit(10).show()

注意:
①monotonically_increasing_id()是方法,不是属性
②利用DataFrame.withColumn(colName,colExpress)
colName如果是新列名则是新增,是旧的则覆盖;
colExpress可以是个计算表达式,但是里面要么包含monotonically_increasing_id()函数,要么就一定要包含一个已有的列名值计算,如:
tempdf.withColumn(“newCol”,tempdf.age+10)
若是没有则会爆AssertionError: col should be Column的错误信息

例如tempdf.withColumn(“newCol”,“hello”)就报错

猜你喜欢

转载自blog.csdn.net/u010720408/article/details/89191332