ip归属地统计 II 优化（广播变量） - 代码天地

ip归属地统计 II 优化（广播变量）

其他 2018-10-06 12:00:47 阅读次数: 0

优化上一篇： ip归属地统计I（广播变量）

package com.ws.spark
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 统计日志中ip归属地出现次数优化 1
  */
object IpFromCount2 {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("IpFromCount2").setMaster("local[4]")

    val sc = new SparkContext(conf)

    //从hdfs中读取规则
    val rulesHDFS: RDD[String] = sc.textFile(args(0))

    val rules: RDD[(Long, Long, String)] = rulesHDFS.map(line => {
      val rules: (Long, Long, String) = IpFromUtils.generalRules(line)
      rules
    })

    //将多个Executor中的ip规则聚合到Driver端
    val allRules: Array[(Long, Long, String)] = rules.collect()

    //Driver端的数据广播到Executor,广播变量的引用（还在Driver端）
    val broadCast: Broadcast[Array[(Long, Long, String)]] = sc.broadcast(allRules)

    //读取log数据
    val data: RDD[String] = sc.textFile(args(1))

    //清洗数据
    val provinceData: RDD[(String, Int)] = data.map(line => {
      //该函数是在Executor中执行的
      val lineArr: Array[String] = line.split("[|]")
      val ip = lineArr(1)
      //转换成十进制
      val ipNum: Long = IpFromUtils.ipToLong(ip)

      //使用广播变量，Driver端的变量是如何广播到Executor中？
      //Task是在Driver端生成的，广播变量的引用是伴随task被发送到Executor的。
      val broadCastValue: Array[(Long, Long, String)] = broadCast.value

      val index: Int = IpFromUtils.binarySearch(broadCastValue, ipNum)

      var province = "未知地区"

      if (index != -1) {
        province = broadCastValue(index)._3
      }
      (province, 1)
    })

    //聚合
    val reduce: RDD[(String, Int)] = provinceData.reduceByKey(_ + _)
    //排序
    val sort: RDD[(String, Int)] = reduce.sortBy(_._2, false)

    println(sort.collect().toBuffer)

    sc.stop()
  }
}

猜你喜欢

转载自blog.csdn.net/bb23417274/article/details/82935264

ip归属地统计 II 优化（广播变量）

ip归属地统计I（广播变量）

IP归属地查询

IP归属地与IP定位

根据IP获取归属地

php获取ip归属地

Java获取IP及归属地

几个免费 IP 归属地查询 API

spark例子ip归属地查询

scala 查询ip归属地测试

根据ip地址计算归属地

Java-获取当前IP归属地

Python实现IP地址归属地查询

requests库之IP归属地查询

批量解析IP归属地的批处理

Java根据ip地址获取归属地

免费常用IP归属地查询API

全网显示 IP 归属地，是怎么实现的？

ip地址以及归属地查询

Java实现IP地址归属地查询

如何高效地查询IP归属地

一文教你如何利用 IP归属地查询API 进行统计分析

切割地址，手机号归属地，IP归属地

python 利用淘宝IP库查询IP归属地

获取用户登录系统的ip以及ip的归属地

php 获取用户登录IP 及 IP归属地

手机归属地_IP地址API 整理

Spark案例之根据ip地址计算归属地四

Spark案例之根据ip地址计算归属地三

Spark案例之根据ip地址计算归属地二

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

WebSocket、HTTP 与 TCP

private,public,protected的区别

Python用了这么多年，总结出超实用的功能和特点

dgwp笔记

ModuleNotFoundError: No module named 'gdbm'

数组的去重方法

Ternsorflow 学习：005-MNIST 实现模型

SpringBoot 2 源码学习笔记（二）

jaxws-spring 搭建Web Services笔记

读取properties文件并获取属性值

每日归档

更多

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)