今日头条算法原理(全)

个人总结:

今日头条新闻资讯类推荐,主要使用基于资讯内容和要用户标签进行的推荐,同时也使用了协同过滤算法,

因为资讯类的时效性,存在冷启动的问题,对文本语义特征的挖掘和用户标签的挖掘,可以解决这个问题,

今日头条通过不同算法组合,构建了推荐模型,和召回策略,对一个用户,先用其兴趣等标签,过滤候选资讯,然后对召回的资讯调用推荐模型计算得分进行推荐。

今日头条的文本特征分为语义挖掘和隐式的语义特征,语义挖掘主要是得到文章的分类,主题等,是为了文章的分类、用户兴趣表达等用途使用,隐式的语义特征主要是利用NLP技术,提取特征词,关键词等,隐式特征可以很好的帮助推荐且难度较小,但是显示的挖掘基于上述原因也是必不可少的。今日头条的文章分类算法采用的是逐层分类的方式,每个分类器根据分类问题的特点和难度是异构的,基本分类器主要有:SVM、CNN、RNN

用户标签,主要是根据文本的语义挖掘结果进行处理,并且加入了一些策略,如时间衰减、热度惩罚、未点击惩罚等

同时模型评估对一个模型的优化很重要。对内容的安全控制是一个红线。

主要收获:

1)对于新闻资讯类内容推荐,因为实时性较强,存在冷启动问题,协同类特征无法使用,所以需要文本特征

2)内容分析和用户标签是两大基石

3)推荐的本质是解决用户、环境和资讯的匹配

4)召回模型的使用,先用召回模型缩小资讯范围,再使用推荐模型计算是否推荐和得分

5)典型的推荐特征

6)层次化的文本分类方式:层次化+异构

7)用户标签的构建策略:时效衰减、热度惩罚、未点击惩罚、噪声过滤、全局指标计算

8)模型评价:无法评价就无法优化

9)内容安全管控

https://mp.weixin.qq.com/s?__biz=MjM5ODEyOTAyMA==&mid=2661911706&idx=1&sn=6a7954d2c33acaff8ceea5c424e9475b&chksm=bd9250898ae5d99fe9aebe6ffb4537beeaeaed97711c97ce059f77c85bb2be947cdc3a08418b&scene=0&key=c72aa5a27cc11845f4e11a407f9858f5c5b7d084abad5ab654300e58848029aac38652394c69feb419300b6ed4ba4422a41d62259af11b3fb1a6b38e520e870aee7c003742325b943ae125c7d4cacacf&ascene=0&uin=OTc5MTg0NTgx&devicetype=iMac+MacBookPro14%2C1+OSX+OSX+10.12.5+build(16F2073)&version=12020810&nettype=WIFI&lang=zh_CN&fontScale=100&pass_ticket=jvoWvMRVU%2BYHiDejcgEmd1GUFu2Q2n1fDkx3UkGD76QJZlqopG9SiXfMtvAA96e8

————详细介绍了今日头条的推荐算法架构

今日头条推荐系统的线上分类采用典型的层次化文本分类算法。最上面Root,下面第一层的分类是像科技、体育、财经、娱乐,体育这样的大类,再下面细分足球、篮球、乒乓球、网球、田径、游泳等,足球再细分国际足球、中国足球,中国足球又细分中甲、中超、国家队等,相比单独的分类器,利用层次化文本分类算法能更好地解决数据倾斜的问题。有一些例外是,如果要提高召回,可以看到我们连接了一些飞线。这套架构通用,但根据不同的问题难度,每个元分类器可以异构,像有些分类SVM效果很好,有些要结合CNN,有些要结合RNN再处理一下。

猜你喜欢

转载自blog.csdn.net/CangHaier/article/details/81408654
今日推荐