基于spark sql 统计爬取到的个网站的一天访问量 - 代码天地

基于spark sql 统计爬取到的个网站的一天访问量

其他 2019-03-09 16:50:57 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/lv_yishi/article/details/84072057

数据：

import org.apache.spark.sql.{DataFrame, SparkSession}

object words1 {
  def main(args: Array[String]): Unit = {
    val session = SparkSession.builder().appName("words").master("local[*]").getOrCreate()

    val workd = session.read.textFile("D:\\数据\\as.txt")

    import session.implicits._
    val key_word=  workd.map(line=>{
      val field = line.split("\t")
      val keyword=field(2)
      val url=field(4)
        //直接过滤掉无效的数据
        val clickorder :Long=if(field(3).split(" ").length >1) field(3).split(" ")(1).toLong else 0

      Data(keyword,url,clickorder)
    }).rdd.toDF()
    key_word.createTempView("u_table")

    val c = session.sql("select keyword,sum(clickorder) con,count(keyword) from u_table" +
      " group by keyword,url order by con desc limit 20")
    c.show(20)
    session.stop()
  }
}
case class Data(keyword:String,url:String,clickorder:Long)

数据第四个字段是空格切割的，并且会有的是缺失的数据，所以val clickorder中使用if对这些数据进行了过滤

猜你喜欢

转载自blog.csdn.net/lv_yishi/article/details/84072057

基于spark sql 统计爬取到的个网站的一天访问量

统计某一天网站的访问量

spark SQL and DataFrame(一)

Spark SQL （一）

使用Spark Streaming SQL基于时间窗口进行数据统计

第79课：Spark SQL基于网站Log的综合案例综合代码和实际运行测试

第75课：Spark SQL基于网站Log的综合案例实战

Spark SQL 性能优化再进一步：CBO 基于代价的优化

基于spark1.3.1的spark-sql实战－02

基于spark1.3.1的spark-sql实战－01

spark sql on hive笔记一

Spark SQL

Spark Sql Dsl Sql

spark SQL学习（案例-统计每日uv）

RDD,Spark SQL,DF群组统计

spark sql 访问hive数据的配置详解

Spark SQL 分析 Nginx 访问日志

spark sql 访问Hive数据表

Spark SQL 使用beeline访问hive仓库

spark笔记-spark sql

使用Spark Streaming整合Spark SQL完成词频统计操作

[Spark Sql]-- spark 累加历史 + 统计全部 + 行转列

Spark Core 和 Spark SQL 实现分组取Top N(基于scala)

Spark SQL 工作流程源码解析（三）analysis 阶段（基于 Spark 3.3.0）

翻译一下spark sql and dataframes

hive,spark sql优化笔记(一)

Spark SQL Dataset 常用API 一

理解Spark SQL(一）—— CLI和ThriftServer

一条Sql的Spark之旅

记一次Spark SQL的优化

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)