分位数-hive,sas,r,python求法 - 代码天地

分位数-hive,sas,r,python求法

其他 2018-07-18 22:09:16 阅读次数: 0

为了方便，总结如下：

hive

percentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)，p∈(0,1)

其中percentile要求输入的字段必须是int类型的，而percentile_approx则是数值类似型的都可以
其实percentile_approx还有一个参数B：percentile_approx(col, p，B)，参数B控制内存消耗的近似精度，B越大，结果的准确度越高。默认为10,000。当col字段中的distinct值的个数小于B时，结果为准确的百分位数。
如果我要求多个分位数怎么办呢？，可以把p换为array(p1,p2,p3…
)，即

percentile_approx(col,array(0.05,0.5,0.95),9999)

如果不放心的话，就给col再加个转换：

percentile_approx(cast(col as double),array(0.05,0.5,0.95),9999)

其输出结果长这样：

[0.0,4001.0,4061.0]

没法直接用啊！再加个转换：

explode(percentile_approx(cast(col as double),array(0.05,0.5,0.95),9999))as percentile

输出结果就长这样了：

percentile
0
4001
4061

例如：

扫描二维码关注公众号，回复： 2230119 查看本文章

select apply_date,
avg(period) as mena,
percentile(period,0.25) as p25,
percentile(period,0.5) as p50,
percentile(period,0.75) as p75
from vdm_fin.cc_loan_object
group by apply_date;

R

mean()
apply( mat, 1, mean) ##apply可以对于矩阵做统计。1代表列，2代表行
median()
quantile( ,probs=seq(0,1,0.25)) ##分位数

sas

proc univariate data=cc_rate;
var rate;
by apply_date;
output out=cc_rate_percent pctlpts=0.25,0.5,0.95 pctlpre=p25 p50 p75;
run;

python

猜你喜欢

转载自blog.csdn.net/changzoe/article/details/80815480

分位数-hive,sas,r,python求法

四分位数求法

R的分位数实现

Python、R和SAS哪个适合你？

Python计算分位数

hive 分位数函数 percentile(col, p)

分位数回归--基于R

python与R(对比SAS)，我该选择哪种工具？

SAS Programming for R Users, Part 1 针对R用户的SAS编程，第1部分 Lynda课程中文字幕

SAS Programming for R Users, Part 2 R语言的SAS编程教程，第2部分 Lynda课程中文字幕

Advanced SAS Programming for R Users, Part 1 针对R用户的高级SAS编程，第1部分 Lynda课程中文字幕

Advanced SAS Programming for R Users, Part 2 R语言高级SAS编程，第2部分 Lynda课程中文字幕

分位数、上侧分位数及python实现

用R语言进行分位数回归：基础篇

用R语言进行分位数回归

python 计算众数、中位数、分位数、偏度、峰度

数据分析工具SAS、R、Python三者之间的选择

数据分析5大软件Excel、SAS、R、SPSS、Python优势分析

R语言与数据模型(1)-平均,方差,中位数，分位数，极差

分位数详细理解+python解释

分位数回归及其Python源码

R语言-画edcf图、直方图、正态概率图，计算分位数（任意分位）

Hive零基础从入门到实战进阶篇（十） HiveQL：分位数（中位数）函数

[学习笔记] 分拆数的几种求法

Lca求法（树链剖分与倍增）

牛客NOIP提高组R1 A中位数(二分)

R语言gWQS包在加权分位数和回归模型的应用

SAS

1021 个位数统计（15 分）python实现

代写R、STATA,sas统计作业、代写R语言程序作业、代写R、STATA,sas编程作业、代写程序作业

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)