1 离线画像流程
画像构建内容:
画像的构建作为推荐系统非常重要的环节,画像可以作为整个产品的推荐或者营销重要依据。需要通过各种方法来构建。
-
文章内容标签化:内容标签化,根据内容定性的制定一系列标签,这些标签可以是描述性标签。针对于文章就是文章相关的内容词语。
- 文章的关键词、主题词
-
用户标签化:这个过程就是需要研究用户对内容的喜好程度,用户喜欢的内容即当作用户喜好的标签。
- 在用户行为记录表中,我们所记下用户的行为在此时就发挥出重要的作用了。用户的浏览(时长/频率)、点击、分享/收藏/关注、其他商业化或关键信息均不同程度的代表的用户对这个内容的喜好程度。
2 离线文章画像计算
离线文章画像组成需求
文章画像,就是给每篇文章定义一些词。
- 关键词:TEXTRANK + IDF共同的词
- 主题词:TEXTRANK + ITFDF共同的词
步骤:
1、原始文章表数据合并
2、所有历史文章Tfidf计算
3、所有历史文章TextRank计算
2.1 Tfidf计算
2.1.1 目的
- 计算出每篇文章的词语的TFIDF结果用于抽取画像
2.1.2TFIDF模型的训练步骤
- 读取N篇文章数据
- 文章数据进行分词处理
- TFIDF模型训练保存,spark使用count与idf进行计算
- 利用模型计算N篇文章数据的TFIDF值
2.1.3 实现
想要用TFIDF进行计算,需要训练一个模型保存结果
- 新建一个compute_tfidf.ipynb的文件
2.2 TextRank计算
步骤:
- 1、TextRank存储结构
- 2、TextRank过滤计算
2.3 文章画像结果
对文章进行计算画像
- 步骤:
- 1、加载IDF,保留关键词以及权重计算(TextRank * IDF)
- 2、合并关键词权重到字典结果
- 3、将tfidf和textrank共现的词作为主题词
- 4、将主题词表和关键词表进行合并,插入表
加载IDF,保留关键词以及权重计算(TextRank * IDF)