使用PySpark处理数据

其他 2021-03-22 16:06:02 阅读次数: 0

使用PySpark处理数据

文章目录

使用PySpark处理数据
一、数据准备
二、用户点击率
三、用户点击率
踩雷点

一、数据准备

本文主要是做为一个PySpark的入手实例来做，数据来源网络。主要用到两个数据文件：action.txt，document.txt。下表为action.txt，数据格式：userid-docid-behaivor-time-ip，即：用户编码-文档编码-行为-日期-IP地址
在这里插入图片描述
下表为document.txt，数据格式：docid-channelname-source-keyword:score，即：文档编码-类别（大类）-主题（细类）-关键词：权重

二、用户点击率

用户点击率即为action.txt文件中每个用户behaivor列中1的数量除以0的数量。

1.创建SparkSession对象

在这里插入图片描述

2.读取拆分数据

将数据根据‘~’拆分，获取userid和behavior两列
在这里插入图片描述

3.统计用户的各类行为数

在这里插入图片描述

4.转为DataFrame格式

将userid,behavior和数量取出作为3列，并转为DataFrame格式
在这里插入图片描述

5.behavior列处理

根据userId进行分组，将behavior列数据进行旋转作为列标数值为cnt。并将behavior的0和1替换为“browse”和”click”。
在这里插入图片描述

6.填充缺失值

在这里插入图片描述

7.将计算的数据作为新列添加到数据

在这里插入图片描述

8.保存、关闭

将最后处理的数据保存到本地，关闭SparkSession
在这里插入图片描述
最后保存到本地的数据为多个文件，每个文件的格式如下：

三、用户点击率

使用主题（细类）给用户打标签

1.读取数据

读取docunment.txt，获取docid、source两列，即文档编码和主题（细类）两列
在这里插入图片描述

2.创建两个DataFrame的临时视图

在这里插入图片描述

3.进行关联查询

在这里插入图片描述

4.保存、关闭

将最后处理的数据保存到本地，关闭SparkSession
在这里插入图片描述
导出后的数据如下：

踩雷点

1、代码开发时，可以每个操作跟一个action，方便查看数据，跑批的时候不需要每个都跟，只需要最后一个action，否则会给机器增加很多工作量。
2、中间过程生成的DataFrame必须先建立临时视图，后面才能使用，否则会报错。

猜你喜欢

转载自blog.csdn.net/wh672843916/article/details/111824205

使用PySpark处理数据

PySpark处理数据并图表分析

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

PySpark学习笔记（6）——数据处理

PySpark和大数据处理初探

使用PySpark将KUDU的数据写入HBase

【Python】PySpark 数据处理 ① ( PySpark 简介 | Apache Spark 简介 | Spark 的 Python 语言版本 PySpark | Python 语言场景 )

Python大数据处理库PySpark实战

【Spark】(task1)PySpark基础数据处理

在Hadoop集群中用PySpark处理数据的知识详解

Python大数据处理利器，PySpark的入门实战

Python大数据处理利器之Pyspark详解

项目实战-使用PySpark处理文本多分类问题

PySpark的DataFrame处理方法

Python学习笔记——大数据之Pyspark与notebook使用matplotlib

使用 Pandera 的 PySpark 应用程序的数据验证

pySpark | pySpark.Dataframe使用的坑与经历

pySpark加载数据

pyspark数据准备

PySpark 数据操作

pyspark读取Mysql数据

pyspark配置和使用

pycharm中使用pyspark

使用pyspark 分析日志

pyspark使用说明

pyspark使用教程（一）

pyspark使用教程（二）

阿里平台pyspark使用

PySpark API使用

pyspark搭建使用

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)