spark: sample 数据采样 - 代码天地

spark: sample 数据采样

其他 2019-02-27 20:19:51 阅读次数: 0

package com.ws.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

/**
  * sample 采样
  */
object SampleTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

    val sparkContext = new SparkContext(conf)

    val data = Array(("hello", 1), ("good", 1), ("good", 1), ("good", 1), ("beautiful", 1), ("nice", 1), ("beautiful", 1), ("good", 1), ("good", 1), ("beautiful", 1), ("good", 1), ("beautiful", 1), ("good", 1), ("good", 1), ("good", 1));

    val rdd1: RDD[(String, Int)] = sparkContext.makeRDD(data)
    rdd1.cache()
    //数据倾斜使用采样
    //返回的是对象/集合,非RDD ,返回的结果数量是指定数量,如5;  参数1:是否需要重新放回  参数2:指定采取的数量
    val rdd2: Array[(String, Int)] = rdd1.takeSample(false, 5)
    println(rdd2.toBuffer)

    //返回的是RDD, 参数1:是否需要重新放回, 参数2:抽取的比例(不一定精确)
    val rdd3: RDD[(String, Int)] = rdd1.sample(false, 0.2)
    val rdd4: collection.Map[String, Long] = rdd3.countByKey()

    val buffer: mutable.Buffer[(String, Long)] = rdd4.toBuffer
    println(buffer)

    sparkContext.stop()
  }
}

猜你喜欢

转载自blog.csdn.net/bb23417274/article/details/87890605

spark: sample 数据采样

spark sample采样

spark transform系列__sample

spark之sample

Alias sample(别名采样)

RNN Sample的采样策略

9 spark入门之采样、搜集部分结果sample、takeOrdered

spark 大型项目实战(五十八):数据倾斜解决方案之sample采样倾斜key进行两次join

spark 大型项目实战(五十七):数据倾斜解决方案之sample采样倾斜key进行两次join

87.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之sample采样倾斜key单独进行join

spark的sample()算子参数详解

java实现spark常用算子之Sample

数据倾斜之sample采样倾斜key进行俩次join

数据倾斜解决方案之sample采样倾斜key进行两次join

ffmpeg重采样后如何获取sample_size大小的数据

关于乱序（shuffle）与随机采样（sample）的一点探究

sample采样倾斜key并单独进行join代码

在pytorch中的双线性采样（Bilinear Sample）

利用ORACLE实现数据抽样(sample block)

【Hive】HiveQL实战之数据抽样Sample

SAP ABAP和Hybris Commerce的Sample数据

pygplates专栏——Sample code——数据导入

spark实现smote样本采样

spark实现smote近邻采样

路胜生物与A*STAR分享研究数据，显示SAFER™ Sample唾液采样盒可灭活采集的COVID-19病毒

Spark数据倾斜问题解决与如何对pairRDD内部采样

解决树莓派IOError: [Errno Invalid sample rate] -9997 采样率16K错误

RANSAC（Random sample consensus）随机采样一致--边缘检测模型拟合方法

泊松分布采样（Poisson-Disk-Sample）代码及详细注释【OpenCV】

语言模型,word2vec,Negative Sample(负采样) Hierarchical Softmax(层次softmax)

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)