文本内容画像&用户画像理解之最终版

首先,用户画像和内容画像  等于 给用户和文本贴标签,即提取能代表该用户和该文章的关键特征。两个画像都构建完成之后,便是推荐算法出场。

一、标签的定义

标签是对高维事务的降维理解,抽象出实物更具有代表性、更显著的特点。

二、标签产出方式:

内容和用户两种

内容画像层面,在文本处理中,对于给定的非结构化的一篇文章,内容画像一共分为一下两步:

2.1、对非结构的文本进行结构化处理,常用的有如下六种处理方法:

1. 关键词提取:是最基础的物品画像的标签来源,也为其他文本分析提供数据基础,如TF-IDF,TextRank;
2. 实体识别:人、位置、地点、著作、影视剧、历史事件和热点事件等,最长基于词典的方法结合CRF模型;类比分词和词性标注,实体识别是指对每一个分好的词,识别为定义好的命名实体类集合之一。
3. 内容分类:将文本按照分类体系分类,用分类来表达较粗粒度的结构化信息;SVM, FastText。
4. 文本聚类:在无人制定分类体系的前提下,无监督地将文本划分成多个类簇也很常见,别看不是标签,类簇编号也是用户画像的常见构成;
5. 主题模型:从大量已有文本中学习主题向量,然后再预测新的文本在各个主题上的概率分布情况,也很实用,其实这也是一种聚类思想,主题向量也不是标签形式,也是用户画像的常用构成;LDA主题模型,给出文章的topic。
6. 词嵌入:也就是Word Embedding,从词到篇章,无不可以学习这种嵌入表达。嵌入表达是为了挖掘出字面意思之下的语义信息,并且用有限的维度表达出来。得到稠密的词向量。

2.2、对结构化的文本数据提取、筛选特征信息,构建内容画像

内容画像是一组多维向量,有如下几个标签,标签可以是文本已有的标签,更多是通过机器学习算法提取的标签:

1、关键词、实体词;

2、主题;

3、分类,层级化;

4,文章基础属性:作者,字数等;

5,文本聚类;

6,嵌入向量。
 

用户画像层面,分为静态和动态两部分

静态:用户的基础属性:年龄,居住地等,通过注册信息及相关途径获得。(便有一个问题,用户的静态属性对文本用户画像的刻画的作用在哪?)

动态:用户的行为特征:文章点击、阅读、点赞、评论、转发等,通过用户网络日志获得。当用户在某篇文章上有上述行为的时候,把文本内容画像的标签按一定权值赋值给用户。

用户画像是一个向量,是推荐系统构筑过程中的一个环节。有两个关键:维度和量化。

在文本领域,用户画像就是对文章喜好的标签。

得到的用户画像是一个用户喜好的关键词-喜好程度”这样的Key-Value对。

两者关系

内容画像和用户画像是相互影响的循环关系

1、内容画像决定用户画像

用户画像的构建,需要用户浏览过的大量文本作为前提。比如评论、收藏、了很多某领域的文章,自然就是喜欢该领域的人。

2、人的画像会影响内容画像

基于用户行为,对内容做出的后验投票。在大体量视频上传体系中,放弃挨个打标签,转而利用用户播放行为来试图猜测内容属于哪类。在实际工程应用中,由于内容的复杂性与多样性,画像远不止于预设的标签集合。在这种情况下,我们引入了聚类的方式来表征内容。(所以产生了一个问题,用户行为是否影响文本内容画像?)

三、基于用户画像和文本内容画像的推荐系统

四种推荐算法:基于内容的推荐算法、基于用户/物品相似度的协同过滤、基于模型的推荐算法、混合模型。

1、通过匹配用户画像和内容画像的相似性,进行基于内容的推荐。

2、通过用户画像之间的相似性,进行基于用户相似度的协同过滤。把和A用户相似的B用户的文章推荐给A。

3、通过物品画像之间的相似性,进行基于物品相似度的协同过滤。把和A用户刚才浏览过的某文章相似的文章推荐给A。

4、基于模型的推荐算法:

在任何读到推荐系统的地方,你都会发现一种分类方法:基于记忆的推荐系统与基于模型的推荐系统。

       基于记忆的方法使用用户之间(协同过滤)或物品之间(基于内容的推荐)的联系(相似性)这一数据(赞、投票、点击等等)来给用户u推荐他从来没见到的物品i。在协同过滤例子中,从与用户u最相似的用户组里的物品集来推荐,因此物品是协同合作的。与此相反,基于内容的推荐尝试比较物品的特性如电影类型、演员、原书的出版社等来推荐相似的新物品。简单地说,基于记忆的方法严重地依赖简单的相似性度量(比如余弦相似性、皮尔森相关系数等)来把相似的用户或物品匹配起来。如果有一矩阵,其中每一行是一个用户,每一列代表一个物品,则基于记忆的方法对这一矩阵的行或列使用相似性度量来获得一个相似度值。

       另一方面基于模型的方法尝试更进一步地填充上面说的矩阵,它们尝试量化一个用户会多么的喜欢他们之前没有遇到的物品。为达此目的,基于模型的方法使用一些机器学习算法来对物品的向量(针对一个特定的用户)来训练,然后建立模型来预测用户对于新的物品的得分。流行的基于模型的技术是贝叶斯网络、奇异值分解和隐含概率语义分析。 

四、推荐系统:内容分发。

猜你喜欢

转载自blog.csdn.net/qq_34333481/article/details/84065592
今日推荐