【spark】六 DataFrame.summary() 中百分比统计探索 - 代码天地

【spark】六 DataFrame.summary() 中百分比统计探索

其他 2019-05-10 11:40:55 阅读次数: 0

版权声明：转载请标明出处。 https://blog.csdn.net/u010720408/article/details/89921745

在分析账号登陆异常的阈值分布取舍时，例如同phone每日登录次数分布，假定有1%、0.1%异常坏人，需要找个阈值切割点。

之前看到pandas的DataFrame有summary()，然后看spark的DataFrame也有，本以为可以很好的使用。

但是发现了一个问题，就是异常点的用户数都很小，造成条数很多，对ip_cnt的个数用阈值取0.1% 1% 5% 都是 ip_cnt=1,而且我也按 95%等，把数据弄到excel中进行累加分析，发现并不是累加的算出正好加到那个数值占总的百分比。

样例数据如下(登录多少次得ip有多少个)：

time	login_cnt	ip_cnt
190315	1	56422
190315	2	49422
190315	3	36422
190315	4	22422
……	……	……
190315	200	22
……	……	……
190315	400	2
……	……	……
190315	600	1
……	……	……

首先发现，pyspark中 sumary调用的而_jdf.summary()，而spark官网并没有看到源码，搜索到一个stackOverFlow https://stackoverflow.com/questions/50793165/pyspark-how-are-dataframe-describe-and-summary-implemented 里看到使用的StatFunctions调用

去git上找源码：https://github.com/apache/spark/blob/86b25c43506a0a858601bd1082e9f96bb0415eb8/sql/core/src/main/scala/org/apache/spark/sql/execution/stat/StatFunctions.scala

针对 1%这样百分比调用 new ApproximatePercentile(child, Literal.create(percentiles)).toAggregateExpression()

找到 ApproximatePercentile.scala

可惜源码也看不懂，不过大致知道是求的近似值，而且这里的k%百分比，是指的排序之后第k%的值，所以因为后面异常点很多都是1，有几十条，总记录也就三百来条，所以最终10%之内的值都是1。
而并不是当初设想的累加后值到达sum(col)的k%对应的值，所以需要自己实现了，可惜暂时不会，方向也就只有复制一列进行累加求出百分比，然后filter筛选出来，可惜难在累加这一块了。

猜你喜欢

转载自blog.csdn.net/u010720408/article/details/89921745

【spark】六 DataFrame.summary() 中百分比统计探索

CSS中百分比的运用

Android中百分比布局

background-position中百分比是如何定位的？

Android中百分比布局（记录）

【python】封装接口直接利用DataFrame绘制百分比柱状图

spark-sql 计算某行值占累加总数的百分比

百分比统计误差hdN

MySQL统计百分比结果

统计多个维度的百分比

css中百分比与像素值进行运算---calc

java中百分比和小数的相互转换

百分比

Spark第六篇：pyspark下的RDD,DataFrame，DataSet

java统计CPU使用百分比

kibana 统计field所有值百分比

统计百分比的一个SQL脚本

统计文本中出现的字母的百分比

MySQL 分组统计并列出百分比

百分比布局

Oracle 百分比

设置百分比

计算百分比

MySql 百分比

进度百分比

求百分比%

math 百分比误差、百分比差异、百分比变化

Spark DataFrame

【Spark】DataFrame

关于《第一行代码》第三章中百分比布局以及RecyclerView出现的问题总结

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)