基于Spark的新闻推荐系统,包含爬虫项目、web网站以及spark推荐系统

下载地址:https://download.csdn.net/download/ouyangxiaobai123/22174377

项目介绍:

基于Spark的新闻推荐系统,包含爬虫项目、web网站以及spark推荐系统

系统说明:

本次项目是基于大数据计算引擎的新闻推荐系统--"今日小站",包含了爬虫,新闻网站(前端和后端),推荐系统(Spark)。

前端效果:
image
image
image

一.爬虫
开发环境:
pycharm+python3

软件架构:
mysql+scrapy+splash

项目描述:
爬虫项目负责重复爬取今日头条首页新闻,去除重复新闻,存入mysql。

二.新闻网站:
开发环境:
IntelliJ IDEA + maven + git + linux

软件架构:
mysql + springboot

项目描述:
今日小站是基于springboot框架搭建的web项目,用户在网站完成注册登录后,网站会记录用户的浏览行为。同时网站也会把推荐结果呈现给用户。

三.推荐系统:
开发环境:
IntelliJ IDEA + maven + git + linux

软件架构:
zookeeper + flume + kafka + spark + mysql

项目描述:
推荐系统计算两两文章间的相似度,并将与之最相似的10条数据id存入mysql。实时处理用户行为日志,将结果存入mysql。根据用户行为数据对用户进行推荐,并将结果存入mysql。

适用场景:

毕业论文、课程设计、公司项目参考

运行截图:

猜你喜欢

转载自blog.csdn.net/ouyangxiaobai123/article/details/120194712