pyspark 对用户的购买商品记录作出统计 - 代码天地

pyspark 对用户的购买商品记录作出统计

其他 2018-12-17 10:30:56 阅读次数: 0

统计一共售出多少个商品，一共有多少个顾客，所有商品的累加和，售卖最流行的商品

数据UserPurchaseHistory.csv

用户名称，商品名称，价格

John,iPhone Cover,9.99
John,Headphones,5.49
Jack,iPhone Cover,9.99
Jill,Samsung Galaxy Cover,8.95
Bob,iPad Cover,5.49

"""A simple Spark app in Python"""
from pyspark import SparkContext

sc = SparkContext("local[2]", "First Spark App")
# we take the raw data in CSV format and convert it into a set of records of the form (user, product, price)
data = sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(",")).map(lambda record: (record[0], record[1], record[2]))
# let's count the number of purchases
numPurchases = data.count()
# let's count how many unique users made purchases
uniqueUsers = data.map(lambda record: record[0]).distinct().count()
# let's sum up our total revenue
totalRevenue = data.map(lambda record: float(record[2])).sum()
# let's find our most popular product
products = data.map(lambda record: (record[1], 1.0)).reduceByKey(lambda a, b: a + b).collect()
mostPopular = sorted(products, key=lambda x: x[1], reverse=True)[0]
print mostPopular

# Finally, print everything out
print "Total purchases: %d" % numPurchases
print "Unique users: %d" % uniqueUsers
print "Total revenue: %2.2f" % totalRevenue
print "Most popular product: %s with %d purchases" % (mostPopular[0], mostPopular[1])

# stop the SparkContext
sc.stop()

猜你喜欢

转载自blog.csdn.net/u011243684/article/details/84989739

pyspark 对用户的购买商品记录作出统计

pyspark系列--统计基础

pySpark学习记录与hadoop

【spark】pyspark错误记录

用户画像-ID_MAPPING pyspark实战

pyspark的join.py代码记录

pyspark系列--连接pyspark

PySpark︱DataFrame操作指南：增/删/改/查/合并/统计等

pyspark单词统计(python编写)文件在hdfs上

pyspark --- 统计多列的众数并一次返回

pyspark错误记录1: Py4JJavaError

PySpark操作

pyspark NaiveBayes

pyspark LDA

pyspark 浅析

pyspark 报错

mapreduce(pyspark)

PySpark的原理

pyspark streaming

pypy on PySpark

PySpark教程

PySpark（一）

pyspark -- DataFrame

PySpark DataFrame

pyspark logistic

pyspark的用法

pyspark与Mongodb

pyspark API

pyspark:FPgrowth

pyspark：GBDT

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)