pyspark.sql.functions详解

pyspark.sql.functions包含了很多内置函数。

1.pyspark.sql.functions.abs(col)

计算绝对值。

2.pyspark.sql.functions.acos(col)

计算给定值的反余弦值; 返回的角度在0到π的范围内。

3.pyspark.sql.functions.add_months(start, months)

返回start后months个月的日期

4.pyspark.sql.functions.array_contains(col, value)

集合函数：如果数组包含给定值，则返回True。收集元素和值必须是相同的类型。

5.pyspark.sql.functions.ascii(col)

计算字符串列的第一个字符的数值。

6.pyspark.sql.functions.avg(col)

聚合函数：返回组中的值的平均值。

7.pyspark.sql.functions.cbrt(col)

计算给定值的立方根。

8.pyspark.sql.functions.ceil(col)

计算给定值的上限。

9.pyspark.sql.functions.coalesce(*cols)

返回不为空的第一列。

10.pyspark.sql.functions.col(col)

根据给定的列名返回一个列。

扫描二维码关注公众号，回复： 4946961 查看本文章

11.pyspark.sql.functions.collect_list(col)

聚合函数：返回重复对象的列表。

12.pyspark.sql.functions.collect_set(col)

聚合函数：返回一组消除重复元素的对象。

13.pyspark.sql.functions.concat(*cols)

将多个输入字符串列连接成一个字符串列。

14.pyspark.sql.functions.concat_ws(sep, *cols)

使用给定的分隔符将多个输入字符串列连接到一个字符串列中。

15.pyspark.sql.functions.corr(col1, col2)

返回col1和col2的皮尔森相关系数的新列。

16.pyspark.sql.functions.cos(col)

计算给定值的余弦。

17.pyspark.sql.functions.cosh(col)

计算给定值的双曲余弦。

18.pyspark.sql.functions.count(col)

聚合函数：返回组中的项数量。

19.pyspark.sql.functions.countDistinct(col, *cols)

返回一列或多列的去重计数的新列。

20.pyspark.sql.functions.current_date()

以日期列的形式返回当前日期。

21.pyspark.sql.functions.current_timestamp()

将当前时间戳作为时间戳列返回。

22.pyspark.sql.functions.date_add(start, days)

返回start后days天的日期

23.pyspark.sql.functions.date_format(date, format)

将日期/时间戳/字符串转换为由第二个参数给定日期格式指定格式的字符串值。
一个模式可能是例如dd.MM.yyyy，可能会返回一个字符串，如“18 .03.1993”。可以使用Java类java.text.SimpleDateFormat的所有模式字母。
注意：尽可能使用像年份这样的专业功能。这些受益于专门的实施。

24.pyspark.sql.functions.date_sub(start, days)

返回start前days天的日期

25.pyspark.sql.functions.datediff(end, start)

返回从start到end的天数。

26.pyspark.sql.functions.dayofmonth(col)

将给定日期的月份的天解压为整数。

27.pyspark.sql.functions.dayofyear(col)

将给定日期的年份中的某一天提取为整数。

28.pyspark.sql.functions.desc(col)

基于给定列名称的降序返回一个排序表达式。

29.pyspark.sql.functions.exp(col)

计算给定值的指数。

30.pyspark.sql.functions.expm1(col)

计算给定值的指数减1。

31.pyspark.sql.functions.factorial(col)

计算给定值的阶乘。

32.pyspark.sql.functions.floor(col)

计算给定值的最小。

33.pyspark.sql.functions.format_number(col, d)

将数字X格式化为像'＃， - ＃， - ＃.-'这样的格式，四舍五入到小数点后的位置，并以字符串形式返回结果。
参数:● col – 要格式化的数值的列名称
● d – N小数位

34.pyspark.sql.functions.format_string(format, *cols)

以printf样式格式化参数，并将结果作为字符串列返回。
参数:● format – 要格式化的格式
● cols - 要格式化的列

35.pyspark.sql.functions.hex(col)

计算给定列的十六进制值，可以是StringType，BinaryType，IntegerType或LongType

36.pyspark.sql.functions.hour(col)

将给定日期的小时数提取为整数。

37.pyspark.sql.functions.hypot(col1, col2)

计算sqrt（a ^ 2 ^ + b ^ 2 ^），无中间上溢或下溢。

38.pyspark.sql.functions.initcap(col)

在句子中将每个单词的第一个字母翻译成大写。

39.pyspark.sql.functions.isnan(col)

如果列是NaN，则返回true的表达式。

40.pyspark.sql.functions.kurtosis(col)

聚合函数：返回组中的值的峰度。

41.pyspark.sql.functions.last(col)

聚合函数：返回组中的最后一个值。

42.pyspark.sql.functions.last_day(date)

返回给定日期所属月份的最后一天。

43.pyspark.sql.functions.lit(col)

创建一个文字值的列

44.pyspark.sql.functions.log(arg1, arg2=None)

返回第二个参数的第一个基于参数的对数。
如果只有一个参数，那么这个参数就是自然对数。

45.pyspark.sql.functions.log1p(col)

计算给定值的自然对数加1。

46.pyspark.sql.functions.log2(col)

返回参数的基数为2的对数。

47.pyspark.sql.functions.lower(col)

将字符串列转换为小写。

48.pyspark.sql.functions.ltrim(col)

从左端修剪指定字符串值的空格。

49.pyspark.sql.functions.minute(col)

提取给定日期的分钟数为整数

50.pyspark.sql.functions.monotonically_increasing_id()

生成单调递增的64位整数的列。

生成的ID保证是单调递增和唯一的，但不是连续的。当前的实现将分区ID放在高31位，并将每个分区内的记录号放在低33位。假设
数据帧的分区少于10亿个，每个分区少于80亿条记录

例如，考虑一个DataFrame有两个分区，每个分区有三个记录。该表达式将返回以下ID：0,1,2,8589934592（1L << 33），
8589934593，8589934594

51.pyspark.sql.functions.month(col)

将给定日期的月份提取为整数

52.pyspark.sql.functions.months_between(date1, date2)

返回date1和date2之间的月数。

53.pyspark.sql.functions.rand(seed=None)

用i.i.d生成一个随机列来自样本[0.0，1.0]。

54.pyspark.sql.functions.randn(seed=None)

用i.i.d生成一列来自标准正态分布的样本。

55.pyspark.sql.functions.reverse(col)

反转字符串列并将其作为新的字符串列返回

56.pyspark.sql.functions.rtrim(col)

从右端修剪指定字符串值的空格

57.pyspark.sql.functions.skewness(col)

聚合函数：返回组中值的偏度

58.pyspark.sql.functions.sort_array(col, asc=True)

集合函数：按升序对给定列的输入数组进行排序。
参数:col – 列或表达式名称

59.pyspark.sql.functions.split(str, pattern)

将模式分割（模式是正则表达式）。
注：pattern是一个字符串表示正则表达式。

60.pyspark.sql.functions.sqrt(col)

计算指定浮点值的平方根

61.pyspark.sql.functions.stddev(col)

聚合函数：返回组中表达式的无偏样本标准差

62.pyspark.sql.functions.sumDistinct(col)

聚合函数：返回表达式中不同值的总和

63.pyspark.sql.functions.to_date(col)

将StringType或TimestampType的列转换为DateType

64.pyspark.sql.functions.trim(col)

修剪指定字符串列的两端空格。

65.pyspark.sql.functions.trunc(date, format)

返回截断到格式指定单位的日期

参数: format – ‘year’, ‘YYYY’, ‘yy’ or ‘month’, ‘mon’, ‘mm’

66.pyspark.sql.functions.var_samp(col)

聚合函数：返回组中值的无偏差

67.pyspark.sql.functions.variance(col)

聚合函数：返回组中值的总体方差