【spark】RDD创建 - 代码天地

【spark】RDD创建

其他 2018-05-03 18:40:07 阅读次数: 5

首先我们要建立 sparkconf 配置文件，然后通过配置文件来建立sparkcontext。

import org.apache.spark._
object MyRdd {
    def main(args:Array[String]): Unit ={
        //初始化配置：设置主机名和程序主类的名字
        val conf = new SparkConf().setMaster("local[*]").setAppName("MyRdd");
        //通过conf来创建sparkcontext
        val sc = new SparkContext(conf);
      
    }
}

然后我们通过 sparkcontext 来创建RDD

创建RDD的几种方式

1.基于程序中的集合创建RDD-作用：主要用于测试

　　通过 sc.parallelize(collection)方法来创建RDD

       /*
        * 从scala集合中创建RDD
        * 计算：1+2+3+...+100
        */
        val nums = List(1,2,3,4,5);//集合
        val rdd = sc.parallelize(nums);//创建rdd
        val sum = rdd.reduce(_+_);
        println(sum);

2.基于本地文件创建RDD-作用：大数据量的测试

"file:///home/hadoop/spark-1.6.0-bin-hadoop2.6/examples/src/main/resources/people.json"

3.基于HDFS创建RDD-作用：生产环境最常用的RDD创建方式

"hdfs://112.74.21.122:9000/user/hive/warehouse/hive_test"

　　通过sc.textFile(file)方法来读取文件

       /*
        * 从本地文件系统创建RDD
        * 计算 people.json 文件中字符总长度
        */
        val rows = sc.textFile("file://")//文件地址或者HDFS文件路径
        val length = rows.map(row=>row.length()).reduce(_+_)
        println("total chars length:"+length)

4.基于DB、NoSQL(例如HBase)、S3、基于数据流创建RDD

　

猜你喜欢

转载自www.cnblogs.com/zzhangyuhang/p/8984312.html

【spark】RDD创建

[Spark]-RDD之创建

[Spark] RDD的创建

Spark RDD创建操作

Spark之RDD的创建

【Spark】RDD创建总结

Spark之RDD创建

Spark RDD的创建

Spark算子：RDD创建的方式

Spark之创建RDD的方式

Spark RDD的创建和操作

Spark创建RDD的几种方式

【spark】内存创建RDD和文件创建RDD

Spark RDD使用详解2--RDD创建方式

Spark核心编程-RDD创建操作

26.Spark创建RDD集合

图解Spark系列：RDD的创建与执行

spark封神之路(6)-RDD创建详解

Spark基础学习笔记：创建RDD

Spark读取内存数据创建RDD

Spark创建RDD分区数量源码详解

Spark RDD

[Spark]-RDD

Spark | RDD

spark --RDD

spark==RDD

spark的RDD

【Spark】RDD

spark分布式数据集RDD 的创建

Spark 创建RDD、DataFrame各种情况的默认分区数

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)