数据挖掘——相似文章推荐 - 代码天地

数据挖掘——相似文章推荐

其他 2018-09-28 22:37:31 阅读次数: 0

　　相似文章推荐：在用户阅读某篇文章时，为用户推荐更多的与在读文章内容相类似的文章

　　相关概念：

推荐(Recommended)：指介绍好的人或事物，希望被任用或接受。数据挖掘领域，推荐包括相似推荐和协同过滤推荐。

相似推荐(Similar Recommended)：指当用户表现出对某人或者某物的兴趣时，为他推荐与之相类似的人或者物，核心定理：人以群分，物以类聚。

协同过滤推荐(Collaborative Filtering Recommendation)：指利用已有用户群过去的行为或意见，预测当前用户最可能喜欢哪些东西或对哪些东西感兴趣

相关文章推荐主要基于余弦相似度的计算原理。

余弦相似度（Cosine Similarity）：用向量空间中两个向量夹角的余弦值作为衡量两个个体见差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这个特征叫做余弦相似性。

文章的余弦相似度：

素材：文章A、文章B

#对两篇文章进行分词，得到 [A] 、 [B] 两个分词列表

#根据分词结果构建分词语料库，得到 [C] = [A] | [B]

#根据语料库分别统计A、B的词频（向量化，需要严格按照分词语料库单词的顺序）

#计算余弦值

具体实现：在构建语料库/中文分词/文档向量化之后

#计算余弦相似度
from sklearn.metrics import pairwise_distances 
#计算每行之间的距离,得到距离矩阵
distance_matrix = pairwise_distances(textVector,metric='cosine')

#排序得到距离第2-6名的矩阵元素
sort = np.argsort(distance_matrix,axis=1)[:,1:6]
similar5 = pd.Index(filepath)[sort].values

#得到相似度前5的文章路径数据框
similarDF = pd.DataFrame({
        'filepath':corpos.filePath,
        's1':similar5[:,0],
        's2':similar5[:,1],
        's3':similar5[:,2],
        's4':similar5[:,3],
        's5':similar5[:,4],})

猜你喜欢

转载自www.cnblogs.com/rix-yb/p/9720999.html

数据挖掘——相似文章推荐

python数据挖掘实战笔记——文本挖掘（9）：相似文章推荐

Django推荐相似文章

Python数据挖掘-基于杰卡德相似系数的相似新闻推荐

推荐系统与数据挖掘

数据挖掘（八）相似性

推荐数据挖掘的数据集

浅谈微博精准推荐——用户行为挖掘与相似用户挖掘

数据挖掘---度量数据的相似性和相异性

海量数据相似度搜索，如相似的网页、图像、文章、query 等相似性搜索

创新实训（16）——推荐系统实现之基于Lucene3.6的余弦相似度计算与相似文章推荐

数据挖掘之比较两个文本的相似度

数据挖掘读书笔记-相似项发现

数据挖掘之-相似性和相异性的度量

Spark实践 | 数据挖掘实验_推荐

推荐：几款优秀的数据挖掘工具

python数据挖掘商品推荐算法

数据挖掘实战，实时推荐系统实战

数据挖掘相关领域竞赛推荐

数据挖掘、机器学习书籍推荐！！

【MOOC学习笔记】数据挖掘——不推荐

基于数据挖掘的旅游推荐APP（五）：景点推荐模块

文章相似度比较

文章相似度

文章相似度计算

头条项目推荐的相关技术(四)：离线文章画像的增量更新及离线文章相似度计算

这篇文章把数据讲透了（四）：数据挖掘

大数据/数据挖掘/推荐系统/机器学习相关资源

大数据之路【第十五篇】:数据挖掘--推荐算法

数据挖掘1：数据类型质量预处理相似性和相异性度量

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)