spark中UDF，从文件中读取数据（两种方式），然后输出【java版纯代码】 - 代码天地

spark中UDF，从文件中读取数据（两种方式），然后输出【java版纯代码】

编程语言 2018-07-28 08:04:02 阅读次数: 0

package com.bjsxt;

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;

import org.apache.spark.sql.SQLContext;
/**
* 读取json格式的文件创建DataFrame
*
* 注意：json文件中不能嵌套json格式的内容
*
* 1.读取json格式两种方式
* 2.df.show默认显示前20行，使用df.show(行数)显示多行
* 3.df.javaRDD/(scala df.rdd) 将DataFrame转换成RDD
* 4.df.printSchema()显示DataFrame中的Schema信息
* 5.dataFram自带的API 操作DataFrame ，用的少
* 6.想使用sql查询，首先要将DataFrame注册成临时表：df.registerTempTable("jtable")，再使用sql,怎么使用sql?sqlContext.sql("sql语句")
* 7.不能读取嵌套的json文件
* 8.df加载过来之后将列按照ascii排序了
* @author root
*
*/

public class JavaRdd {
   public static void main(String[] args) {
       SparkConf conf=new SparkConf().setAppName("test").setMaster("local");
       SparkContext sc=new SparkContext(conf);
       SQLContext SQLContext=new SQLContext(sc);
       DataFrame df = SQLContext.read().format("json").load("./json");
       JavaRDD<Row> javaRDD = df.javaRDD();
       df.show();
       df.printSchema();
       System.out.println("kjjfljdlkgdfjlkdjgsfkjggjfdgkjfd");
       javaRDD.map(new Function<Row, String>() {

           @Override
           public String call(Row row) throws Exception {
               System.out.println("row="+row.get(0));
               System.out.println("000000000000000000000000000000000");
               System.out.println("row="+row.getAs("name"));
               System.out.println("9999999999999999999999999999999999999999");
               System.out.println("row="+row.getAs("age"));

               return "xxx";
           }
       }).count();
   }
}

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/81202973

spark中UDF，从文件中读取数据（两种方式），然后输出【java版纯代码】

SparkSQL创建RDD：<6>读取JDBC中的数据创建DataFrame(MySql为例，两种方式)【Java，Scala纯代码】

Spark Streaming 读取 Kafka 数据的两种方式

在spark udf中读取hdfs上的文件

java中for循环的两种方式

java读取Properties文件常用两种方式

java文件读取的两种方式FileReader

两种方式读取Json文件数据

Spark中yarn模式两种提交任务方式

Spring-boot中读取config配置文件的两种方式

spring boot中读取配置文件的两种方式

Excel文件读取的两种方式

读取csv文件的两种方式

Java证书读取的两种方式

Python中读取txt文件的两种可行办法

Spark算子中aggregateByKey算子的理解【Java版纯代码】

SparkSQL UDF两种注册方式：udf() 和 register()

springboot两种读取application中的数据的方法

代码中快捷安装、删除apk的两种方式

Spark读取Kafka两种方式的详细说明

分治策略实现--输油管道问题的设计与实现（c++代码）--文件读取输出和控制台输入输出两种方式

Linux中vim文件显示行号两种方式

SpringBoot中解析配置文件的两种方式

【转】BAT启动执行JAVA JAR文件中的MAIN方法的两种方式

【Spark篇】---Spark中yarn模式两种提交任务方式

FileInputStream读取字节流。读取文件数据的两种方式(写的好)

java中实现多线程的两种方式

UUID在Java中的两种产生方式

Java中匿名类的两种实现方式

Java中参数的两种传递方式

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)