【大数据项目实训】电商推荐系统

编程语言 2023-09-09 17:36:11 阅读次数: 0

文章目录

前言
一、项目框架
- 大数据处理流程
二、项目系统设计
三、项目框架搭建

前言

主要内容

项目框架
数据源解析
统计推荐模块
基于LFM的离线推荐模块
基于自定义模型的实时推荐模块
其他形式的离线相似推荐模块
- 基于内容的模块推荐
- 基于物品的协同过滤推荐模块

一、项目框架

大数据处理流程

数据源：结构化数据（关系数据）、半结构化数据（日志数据）、非结构化数据（图片视频）
数据采集：ETL工具、Scribe、Flume、Kafka、Sqoop
数据存储：Oracle、GreenPlum、Cassandra、Hbase、HDFS
数据计算：Mahout、Storm、Flink、Spark、MapReduce
数据应用：业务应用、Tableau、BI分析、可视化ECharts D3

实时处理流程

用户接口 (业务请求)
后台服务器 (前端/后端埋点)
日志文件 (Flume)
日志采集 (kafka)
数据总线 (Kafka消息队列)
实时计算
数据存储
数据可视化

离线处理流程
用户接口 -> 后台服务器 -> 日志文件 -> 日志采集 -> 日志存储 -> 日志清洗 -> 数据加载 -> 数据仓库 -> 数据计算 -> 数据存储 -> 数据可视化

二、项目系统设计

系统模块设计

实时推荐
离线推荐
热门推荐
标签
相似推荐

项目系统架构

业务系统构成

用户可视化：NGULARJS
推荐结果展示
商品检索
商品信息详情
商品标签
商品评分

扫描二维码关注公众号，回复： 16557147 查看本文章
综合业务服务：Spring
推荐结果查询
商品检索
商品信息详情
商品标签
商品评分
业务数据库：MongDB（流行、数据量大、文档型数据库=>Json串）
离线统计服务：历史热门商品统计、近期热门商品统计、商品平均分统计
离线推荐服务：
- ALS - LFM – UserRecs – ProductRecs
- TF-IDF –
缓存数据库：Redis

推荐系统构成

离线推荐（离线）：

离线统计服务 Scala Spark SQL
离线推荐服务 Scala Spark MLlib
实时推荐（在线）：
日志采集服务 Flume-ng
消息缓冲服务 kafka
实施推荐服务 Spark Streaming

项目数据流图

数据源解析

商品信息：products.csv
- 商品ID（productId）
- 商品名称（name）
- 商品种类（categories）
- 商品图片URL（imageUrl）
- 商品标签（tags）
用户评分数据:ratings.csv
- 用户ID（uid）
- 商品ID（productid）
- 商品评分（score）
- 评分时间（timestamp）

主要数据模型

商品信息表
用户评分信息表
用户表
历史热门商品统计表
近期热门商品统计表
商品平均评分统计表
离线（基于LFM）用户推荐列表
离线（基于LFM）商品相似度表（为后续实时推荐准备）
离线（基于内容）商品相似度表
离线（基于Item-CF）商品相似度表
实时用户推荐列表

实现模块

统计推荐模块

历史热门商品统计

统计所有历史数据中每个商品的平分数
select productId, count(productId) as count from rating group by productId order by count desc => RateMoreProducts
RateMoreProducts 数据结构：productId，count

近期热门商品统计

统计每月的商品评分个数，代表商品近期的热门度
select productId, score, changeDate(timestamp) as yearmonth from ratings => ratingOfMonth
select productId, count(productId) as count, yearmonth from ratingOfMonth group by yearmonth, productId order by yearmonth desc, count desc => RateMoreRecentlyProducts
changeDate：UDF函数，使用SimpleDateFormat对Date进行格式转化，转化格式为’‘yyyyMM’’
RateMoreRecentlyProducts 数据结构：productId，count，yearmonth

商品平均评分统计

select productId, avg(sorce) as avg from ratings group by productId order by avg desc => AverageProducts
AverageProducts 数据结构：productId，avg

基于LFM的离线推荐模块

用ALS算法训练隐语义模型
- val model = ALS.train(trainData, rank, iterations, lambda)
- 要求数据结构：RDD / DataFrame
- trainData：训练数据
- rank：隐特征个数k
- iterations：迭代次数
- lambda：正则化次数
- RMSE：均方根误差
- 参数调整：通过均方根误差，多次调整参数值，选择RMSE最小的一组参数值
计算用户推荐矩阵
计算商品相似度矩阵

基于模型的实时推荐模块

计算速度快
结果可以不是特别精确
有预先设计好的推荐模型

推荐优先级计算

基本原理：用户最近一段时间的口味是相似的
相似度 - 评分分值

在这里插入图片描述

其他形式的离线相似推荐

在这里插入图片描述

基于内容的推荐

基于商品的用户标签信息，用TF-IDF算法提取特征向量
计算特征向量的余弦相似度，得到商品的相似列表
在实际应用中，一般会在商品详情页、或商品购买页将相似商品推荐出来

基于物品的协同过滤推荐

基于物品的协同过滤（Item-CF），只需手机用户的常规行为数据（比如点击、收藏、购买）就可以得到商品间的相似度，在实际项目中引用广泛
“同现相似度”——利用行为数据计算不同商品间的相似度

混合推荐——分区混合

基于模型的推荐
基于协同过滤的推荐
基于内容的推荐
基于统计的推荐

三、项目框架搭建

猜你喜欢

转载自blog.csdn.net/Lenhart001/article/details/131505843

【大数据项目实训】电商推荐系统

电商大数据项目-推荐系统实战之推荐算法

电商大数据项目（二）-推荐系统实战之实时分析以及离线分析

大数据项目（三）————电商项目介绍（一）

大数据项目（三）————电商模块三（四）

大数据项目（三）————电商模块四（五）

大数据项目（三）————电商模块二（三）

大数据项目之电商数仓、业务数据介绍、电商系统表结构

大数据技术——电影推荐系统大数据综合实训项目

大数据之电商推荐系统

大数据项目（三）————电商项目模块一（二）

大数据项目千面电商平台实战（用户画像）

【大数据实战电商推荐系统】概述版

【大数据实战电商推荐系统】

大数据项目之电商数仓、电商业务简介、电商业务流程、电商常识、业务数据介绍、电商业务表、后台管理系统

[大数据项目]-0006-亿级流量电商详情页系统的大型高并发与高可用缓存架构实战（195节全）

大数据项目之电影推荐系统（三）统计推荐模块

大数据项目之电商数仓二（系统业务数据仓库）

大数据项目之电商数据仓库系统回顾

大数据项目之电影推荐系统（一）项目介绍与环境配置

大数据项目之电影推荐系统（二）数据加载模块

大数据项目实战之 --- 某购物平台商品实时推荐系统（五）

大数据项目实战之 --- 某购物平台商品实时推荐系统（四）

大数据项目实战之 --- 某购物平台商品实时推荐系统（三）

大数据项目实战之 --- 某购物平台商品实时推荐系统（二）

大数据项目实战之 --- 某购物平台商品实时推荐系统（一）

大数据项目

淘宝相似物品推荐系统的实训对于大数据求学者的帮助

[大数据项目]-0011-基于大数据技术推荐系统算法案例实战视频教

大数据技术之_28_电商推荐系统项目_01_项目体系架构设计 + 工具环境搭建 + 创建项目并初始化业务数据

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)