spark教程(五)-实战 - 代码天地

spark教程(五)-实战

其他 2019-10-11 18:10:40 阅读次数: 0

读取本地文件

在 local 模式下，文件无特殊要求

在 standalone 模式下读取本地文件，这个文件必须在每个节点上都存在，且路径一致

实例 ---- GPS 热力图

原数据长这样

1,108.99564,34.33999999,1
2,108.99564,34.3399087138298,1
3,108.99564,34.3398174376596,1
4,108.99564,34.3397261614894,1
5,108.99564,34.3396348853192,1
6,108.99564,34.3395436091489,1
7,108.99564,34.3394523329787,1
8,108.99564,34.3393610568085,1

简易代码

from __future__ import division
from pyspark import SparkContext

max_lng = 136
min_lng = 73
max_lat = 54
min_lat = 3
lng_stage = 1000
lat_stage = 1000

lng_step=(max_lng - min_lng) / (lng_stage)
lat_step=(max_lat - min_lat) / (lat_stage)

def mymap(data):
    # print(data, 1111111111111111111111111111111111)
    return data.split(',')

def mygroup(data):
    # 对经纬度分区，打标签
    # print(data[1], type(data[1]))
    label_lng = round(float(data[1]) / lng_step, 1)
    label_lat = round(float(data[2]) / lat_step, 1)
    return (label_lng, label_lat)

def mapkey(data):
    # 把标签还原成经纬度
    return data[0][0] * lng_step, data[0][1] * lat_step, data[1]


# sc = SparkContext('local', 'gpsfreq')       # 本地模式
sc = SparkContext('spark://hadoop10:7077', 'gpsfreq')     # standalone 模式
rdd = sc.textFile('dwd.csv', 100)       # standalone 模式 读取本地文件，必须在每个节点上都有这个文件，且路径一致

# print rdd.map(mymap).collect()
print rdd.map(mymap).groupBy(mygroup).mapValues(len).map(mapkey).collect()

输出长这样

[(111.8943, 32.629799999999996, 11), (109.2861, 34.2006, 42), (109.0467, 35.2155, 77), (111.72420000000001, 33.1755, 11), (111.636, 32.8542, 7)]

读取 hdfs

读取数据库

读取 hive

未完待续...

猜你喜欢

转载自www.cnblogs.com/yanshw/p/11655677.html

spark教程(五)-实战

RabbitMQ 实战教程（五）主题

Spark实战(五)spark streaming + flume(Python版)

Spark视频教程|Spark从入门到上手实战

Docker最全教程——从理论到实战（五）

Spark 项目实战之数据服务分析（五）

机器学习实战（五）03-Spark-SVM

Docker最全教程——从理论到实战（五） Docker最全教程——从理论到实战（五）

【教程分享】Spark Streaming实时流处理项目实战

spark 实战

Spark实战

spark 大型项目实战(五):用户访问session分析(五) --数据表设计

Spark视频教程之Spark从入门到上手实战

Spark教程

大数据 Spark 架构，Spark企业级大数据项目实战视频，项目集成Hadoop教程，Spark

ffmpeg实战教程（五）libswscale，libavfilter实践指南

微服务Springcloud超详细教程+实战（五）

小程序云开发基础实战教程五

express实战教程：（五）安装mongoose，初始化数据

C++游戏编程教程（五）——项目实战

Java Web实战详细教程（五）JSP语法详解

Docker 实战教程之从入门到提高 (五)

Spark介绍（五）Spark MLlib

Spark入门(五)——Spark Streaming

spark--Spark Streaming实战-★★★★★

五年经验大佬带你掌握基于Hadoop与Spark的大数据开发实战

大数据入门：Spark+Kudu的广告业务项目实战笔记(五)

机器学习实战教程（五）：朴素贝叶斯实战篇之新浪新闻分类

Spark_总结五

Spark（五）————MLlib

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)